L’era dei big data ha portato la gestione dei dati (data management) entro scenari di varietà e complessità senza precedenti nella storia dell’information technology. Anche i non specialisti della data science hanno ormai compreso pienamente come i dati acquisiti in forma grezza da varie fonti rappresentino la linfa vitale delle organizzazioni, a patto che sappiano estrarre un valore informativo utile a supportare le esigenze di business.

Immagine promozionale per il whitepaper su Data Driven

I big data, nella loro più moderna concezione, descritta in maniera efficace dalle 5V coniate da Gartner (volume, velocità, varietà, verità e variabilità) hanno ridefinito il modo attraverso cui i dati vengono concepiti, trattati e analizzati nei processi aziendali.

Alle complessità di natura informatica si sono progressivamente aggiunti altri aspetti imprescindibili come gli strumenti normativi, utili a tutelare i legittimi proprietari dei dati da un utilizzo improprio in termini di sfruttamento, privacy e sicurezza, secondo quanto disposto dal GDPR, il regolamento europeo sulla protezione dei dati personali.

Oggi gestire i dati vuol dire in primo luogo prendere atto di come vengono trattati, per non incorrere in situazioni problematiche anche per quanto concerne la reputazione dell’azienda, soprattutto nel caso in cui dovessero verificarsi ingenti perdite o gravi violazioni da parte dei cybercriminali.

Sviluppare e soprattutto eseguire una strategia di data management efficace non costituisce certo una novità in ambito IT. Sin dagli anni 70, i database relazionali hanno introdotto un nuovo modo di gestire i dati, strutturandoli secondo logiche tabellari per renderli più ordinati e facilmente accessibili alle query. Successivamente, come vedremo, soprattutto a partire dagli anni 2000, sono arrivati sistemi di gestione capaci di gestire anche i dati non strutturati, come quelli di natura multimediale.

Oggi i big data ampliano notevolmente il ruolo e le responsabilità del data management, che diventa a tutti gli effetti un’attività fondamentale nel contesto di qualsiasi organizzazione nel suo percorso di trasformazione digitale.

Cosa significa big data management?

Per big data management si intende l’organizzazione, l’amministrazione e la governance di grandi volumi di dati strutturati e non strutturati, con l’obiettivo di garantire un elevato livello di data quality e accessibilità per le applicazioni analitiche, in particolar modo nell’ambito della business intelligence e della business analytics.

L’aspetto quantitativo costituisce la principale evidenza del big data management, ma non è certamente l’unico aspetto da considerare, soprattutto a fronte della grande varietà che si presenta a livello tecnologico, con molti formati file da considerare e uniformare ai fini di rendere i dati stessi fruibili e interoperabili da parte delle applicazioni che costituiscono la pipeline.

Se implementato in maniera consapevole, il big data management costituisce pertanto un elemento fondamentale per aiutare le organizzazioni ad estrarre valore informativo dall’enorme quantità e varietà di dati strutturati e non strutturati che provengono ormai in tempo reale dai canali di comunicazione, log di sistemi, sensori impiantistici e ambientali, sistemi audio-video e numerose altre fonti.

A livello funzionale, le architetture di gestione dei big data prevedono vari livelli di gestione, specifici per ogni sistema (es. database, data lake, data warehouse, ecc.) che fungono da base per uno o più livelli costituiti dalle applicazioni di analisi (data analysis) e visualizzazione dei dati (data visualization).

La tendenza attuale prevede infatti il superamento della tradizionale dicotomia tra dati strutturati e non strutturati, per offrire una risposta funzionale alle effettive esigenze delle organizzazioni, che si ritrovano quotidianamente a dover gestire e analizzare varie tipologie di dati, nei contesti più disparati.

Questo aspetto ha ulteriormente ampliato la varietà tecnologica a favore di sistemi ibridi, ormai diffusi in tutti gli ambienti IT, coinvolgendo in larga misura anche l’offerta proveniente dal cloud.

A livello operativo, la classificazione dei dati dovrebbe favorire la possibilità di formare dei data set di piccole dimensioni, rapidi e agili da gestire da parte delle applicazioni analitiche. Tuttavia, dal punto di vista della data analytics non ci sono particolari vincoli, anche in funzione delle capacità computazionali di cui si dispone e dalla tipologia di analisi che si intende effettuare, coinvolgendo anche tecniche più complesse nell’ambito dell’intelligenza artificiale (machine learning, deep learning, ecc.).

La strategia di big data management, come annunciato, oltre alle finalità analitiche deve necessariamente garantire un’adeguata classificazione orientata a comprendere quali dati conservare e come trattarli in conformità con le prescrizioni della normativa GDPR.

I vantaggi

I benefici derivanti da una consapevole strategia di big data management sono molteplici.

  • – Un solido approccio alla gestione dei dati orienta il business verso maggiori livelli di performance e a saper prendere decisioni più consapevoli, grazie al supporto oggettivo delle informazioni che derivano dai processi analitici. Questa prospettiva favorisce un’ottimizzazione dei tempi e dei costi relativi a tutti i processi, oltre allo sviluppo di un vantaggio competitivo nei mercati di riferimento.
  • – Una corretta gestione dei dati è la condizione basilare per rendere le organizzazioni effettivamente data-driven, con logiche moderne, basate su metodi agili che consentono di adattarsi facilmente e rapidamente a tutte le variazioni di trend di mercato e dagli eventi imprevisti e imprevedibili, come un problema a livello di supply chain su scala globale.
  • – La corretta implementazione del big data management favorisce le attività di cybersecurity, rendendo i sistemi IT più sicuri dai data breach e dalle perdite di dati accidentali, che puntualmente si verificano quando varie linee di business lavorano su una base di dati incoerente e non unificata. Tali aspetti consentono di salvaguardare la reputazione aziendale, al di là di qualsiasi ripercussione di carattere puramente economica.

Le sfide del big data management

Il big data management offre numerosi vantaggi, ma anche il dover superare alcune oggettive criticità. L’attività dell’Osservatorio Big Data & Business Analytics del Politecnico di Milano ci offre tre interessanti spunti, che riportiamo sinteticamente.

1- Garantire la data quality su dati estremamente eterogenei

Le aziende trattano una grande mole di dati, di diverse tipologie, provenienti da varie fonti. Per facilitare la gestione sono stati implementati i processi di Extract, Trasform and Load (ETL) che consentono di consolidare i dati nei data warehouse, in funzione delle logiche di business.

Nel medesimo contesto, i sistemi data lake acquisiscono i cosiddetti dati grezzi, senza prevedere la loro trasformazione durante la fase di acquisizione. Soltanto nel momento in cui il dato viene utilizzato, intervengono dei tool in grado di prepararlo alla finalità specifica, eliminando duplicati o osservazioni anomale, rendendo omogenea la scrittura di alcune informazioni, oltre a verificarne la coerenza interna.

Tali aspetti possono risultare particolarmente complessi nel caso dei dati non strutturati (testi, immagini, video, audio, ecc.). La sfida, in ogni caso, è costituita dal garantire un’adeguata data quality attraverso la pulizia, la coerenza e l’affidabilità di cui le applicazioni analitiche necessitano per garantire risultati attendibili.

2- Costruire un’infrastruttura flessibile e aperta garantendo una visione unica sui dati

Secondo quanto rilevato dall’Osservatorio: “L’infrastruttura di Analytics è una macchina estremamente complessa, che si avvale, specialmente nei casi più moderni, di una pluralità di strumenti: proprietari e open source, in cloud e on-premises e così via. La flessibilità è una condizione necessaria e ciò porta, da un punto di vista tecnologico, a dover integrare sistemi differenti. Ma non solo! Anche i dati dovranno comunicare tra loro”.

La risposta a questa criticità arriva dai sistemi di catalogazione dei dati e di gestione dei metadati incorporati nei file, che permettono di dare lo stesso significato a dati provenienti da diverse fonti, uniformando la loro interpretazione da parte di tutti gli stakeholder.

3- Aumentare i data user garantendo sicurezza e privacy delle informazioni

L’Osservatorio pone l’attenzione sui self-service data analytics, che prevede strumenti: “Immediatamente fruibili da utenti senza conoscenze informatiche o statistiche avanzate, ma che diano l’opportunità di esplorare i principali KPI aziendali in maniera interattiva, dinamica e personalizzabile. Quest’impegno è sicuramente virtuoso e dà vita a un percorso di maggiore consapevolezza sull’importanza dei dati. Tuttavia, se l’azienda adotta un approccio self-service, tenere al sicuro gli elementi fondanti della business strategy diventa imprescindibile. Al contempo, le normative sulla privacy impongono e imporranno sempre di più dettami stringenti sul trattamento dei dati”.

I responsabili della strategia di big data management devono trovare un efficace bilanciamento tra la necessaria attenzione alle problematiche di security e privacy e il non porre eccessivi vincoli al loro sfruttamento, da cui deriva sostanzialmente il valore informativo fondamentale per il business.

Le best practice del big data management

Ogni organizzazione implementa strategie di big data management specifiche, sulla base delle proprie esigenze di business e del layout di risorse di cui dispone. Tuttavia, è possibile citare alcune best practice, comunemente adottate in azienda:

1- Sviluppare una strategia e una roadmap per eseguirla.

Le organizzazioni dovrebbero in primo luogo definire una visione strategica per i big data in funzione degli obiettivi aziendali, in modo da capire ciò di cui realmente necessitano a livello di applicazioni e sistemi, oltre che di competenze necessarie per implementarli con successo nelle pipeline. Ciò prevede spesso il coinvolgimento di consulenti esperti e qualificati nelle discipline di gestione dei dati.

2- Focalizzarsi sugli obiettivi

Rimanere coerenti con gli obiettivi di business, in funzione di garantire decisioni data-driven, che solo sistemi di gestione dei dati coerenti con le esigenze aziendali possono concretamente garantire. Ciò prevede un’efficace sinergia tra tutti gli stakeholder tecnici e non tecnici.

3- Abbattere i silos

Superare i tradizionali data silos, grazie a sistemi in grado di unificare la base dei dati e renderla simultaneamente fruibile, in maniera coerente, a tutte le linee di business aziendali.

4- Costruire una adeguata architettura IT

Progettare una solida architettura IT, che tenga conto dell’eterogeneità dei sistemi che concorrono all’intero ciclo di vita del dato, con attività che spaziano dall’ingestione, alla preparazione, all’integrazione e all’analisi da parte delle applicazioni.

5- Attenzione alla Data Governance

Sostenere una solida attività di data governance ai fini di garantire sicurezza e affidabilità dei dati, per garantire sia la conformità alla normativa GDPR, senza condizionare le esigenze pratiche delle applicazioni analitiche.   

Tools e strumenti utilizzati

La storia dei sistemi di data management (data management systems) si è progressivamente arricchita di nuovi capitoli tecnologici. Tra gli anni Settanta e gli anni Ottanta sono arrivati i primi database relazionali e l’idea di un ecosistema centralizzato per la gestione dei dati, che hanno finito per confluire nella creazione dei data warehouse, molto diffusi sul mercato a partire dagli anni Novanta e Duemila.

Ai database relazionali (SQL) si sono successivamente affiancate altre tipologie di gestione dei dati, come i database NoSQL. Le tecnologie dei big data hanno visto l’introduzione dei sistemi Hadoop e Spark e una progressiva ricerca di una flessibilità di gestione capace di andare oltre i tradizionali vincoli dei sistemi relazionali. Tale tendenza si è concretizzata negli anni 2010, con la diffusione dei data lake, sistemi capaci di trattare indistintamente dati strutturati e non strutturati.

Di meritevole attenzione anche i moderni framework per la gestione dei dati, tra cui è opportuno rilevare data fabric, che mira a integrare varie pipeline di gestione a favore di un’attività di data management semplice ed efficace da implementare a tutti i livelli aziendali.

Il framework data fabric prevede ad esempio l’unificazione dei data asset attraverso l’automazione e l’integrazione di tutti i processi coinvolti, per rendere riutilizzabili i dati stessi in vari contesti applicativi, secondo logiche come il data mesh, un’architettura decentralizzata capace di responsabilizzare i singoli domini nel rispetto delle policy e degli standard definiti dall’azienda, sulla base delle proprie esigenze di business e delle normative vigenti.

Immagine promozionale per il whitepaper su Data Driven
ARGOMENTI CORRELATI
Categoria: ANALYTICS
Concept di due colleghi che lavorano insieme a dati aziendali

Data catalog: cos’è e perché è necessario

La gestione dei dati all’interno di un’organizzazione comporta oggi una serie di importanti sfide, da cui dipende il successo delle… Leggi tutto

Concept per far capire le potenzialità dei Big Data Analytics: esempi di cruscotti che restituiscono informazioni utili

Big Data Analytics: cos’è e perché è importante

Quando si parla di big data analytics ci si riferisce, solitamente, all’analisi avanzata di grandi volumi di dati. Prendere decisioni… Leggi tutto

Concept per far capire il significato del Data Management: uomo che attraverso degli ingranaggi mette in ordine dei flussi intrecciati e caotici

Data Management: cos’è e perché è necessario in azienda

Oggi più che mai i dati digitali rappresentano un vero e proprio asset, un capitale, un importante fattore economico per… Leggi tutto