Tra le operazioni più importanti ai fini di ottenere una buona qualità dei dati vi è indubbiamente la Data Preparation, una disciplina che si occupa di preparare i dati all’utilizzo che si intende effettuare in ambito aziendale. I sistemi di moderna concezione consentono di operare sui dataset in maniera concettualmente e strumentalmente agile, per ridurre in primis i tempi relativi alla loro preparazione, oltre a tutti i vantaggi che derivano da una loro miglior qualità generale e da una accessibilità più semplice.
Vediamo dunque in cosa consiste la Data Preparation, quali sono le sue fasi essenziali e i vantaggi complessivi che derivano da una sua corretta implementazione.
Cos’è la Data Preparation
La Data Preparation consente di raccogliere, combinare, strutturare ed organizzare i dati in modo da renderli fruibili alle tipologie di analisi disciplinate dalla Business Intelligence (analisi descrittiva) o dalla Business Analytics (analisi predittiva e prescrittiva). La preparazione dei dati è un processo molto articolato, ma cruciale nel garantire una qualità dei dati adeguata ad estrarre informazioni di valore.
In altri termini, la Data Preparation consiste nell’atto di manipolare, pre-elaborare, dati grezzi provenienti da svariate fonti e in formati differenti, per trasformarli in dati utilizzabili dai sistemi aziendali in uso.
Dal momento che i dati coinvolgono ormai l’operato di tutte le linee di business (LoB), la Data Preparation assume in maniera organica la valenza multidisciplinare, coordinata dagli specialisti del Data Management e dal reparto IT, chiamati a combinare i dataset ed implementarli in sistemi organizzati come i Data Warehouse e i Data Lake, al cui interno, oltre ai dati strutturati, possono trovare luogo anche i dati semi strutturati e non strutturati.
Nell’ambito della preparazione dei dati risulta essenziale il coinvolgimento dei Data Scientist, protagonisti dei processi analitici, e pertanto cruciali nell’orientare le fasi che devono produrre una corretta ed efficace strutturazione dei dati. Grazie all’ampia gamma di software e soluzioni ormai disponibili sul mercato, i Data Scientist possono anche avvalersi direttamente di strumenti self-service, capaci di automatizzare l’acquisizione e la preparazione dei dati stessi, in modo da facilitare e rendere molto più rapido lo svolgimento del loro lavoro.
A prescindere dalle fasi puramente tecniche, la Data Preparation, come abbiamo anticipato, ha l’obiettivo di tradurre il dato grezzo proveniente da un qualsiasi processo digitale in un dato usabile ai fini analitici, in modo che possa garantire risultati attendibili nelle descrizioni e nelle previsioni elaborate. Chi si è interfacciato anche soltanto una volta con questo genere di operazioni, sa benissimo che il dato grezzo non è praticamente mai pronto, in quanto possono mancare informazioni per compilare dei campi essenziali di un sistema strutturato, piuttosto che esservi ridondanze o ancor peggio errori più o meno evidenti.
La Data Preparation si occupa quindi di scremare i dati e completarli laddove vi siano delle lacune, funzionalmente agli obiettivi del contesto analitico in cui vanno a collocarsi. È dunque possibile fare riferimento a vari data set, interni ed esterni, creare nuovi campi dati, oppure eliminarne di esistenti, così come effettuare moltissime operazioni di dettaglio, finalizzare a garantire la miglior qualità dei dati possibile.
I componenti della preparazione dei dati includono la raccolta di dati da diversi sistemi interni e fonti esterne, la loro pre-elaborazione, la profilazione, la pulizia, la convalida e la trasformazione dei dati.
Le tecnologie più comuni utilizzate per la Data Preparation sono quelle di ETL – Extract, Transform, Load (processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi o di analisi) e di Data Quality.
Solitamente infatti il lavoro di preparazione dei dati viene svolto dai team IT, di BI e di gestione dei dati che lavorano sui dati ed integrano i set di dati da caricare in un Data Warehouse, un database o un repository di Data Lake. Sempre più spesso, come accennato, contribuiscono alla Data Preparation anche i Data Scientist ed altri analisti di dati o utenti aziendali che possono utilizzare strumenti di preparazione dei dati self-service per raccogliere e preparare i dati stessi in modo autonomo, senza ricorrere ai team IT.
Gli obiettivi della Data Preparation
L’obiettivo principale della preparazione dei dati è garantire che i dati grezzi vengano predisposti accuratamente per l’elaborazione e l’analisi e assicurarsi che siano accurati e coerenti in modo che i risultati delle applicazioni di BI e di analisi siano validi.
Quando vengono creati, i dati spesso presentano valori mancanti, imprecisioni, errori di varia natura. Spesso set di dati separati hanno formati diversi e devono essere “riconciliati” perché possano essere sfruttati dai sistemi. Ecco perché una parte consistente del lavoro di Data Preparation, prima ancora della pre-elaborazione dei dati, è data dalla correzione degli errori nei dati, dalla verifica della qualità dei dati e dall’unione dei set di dati. Seppur non parte integrante vera e propria della Data Preparation, la Data Augmentation rappresenta un altro importante tassello da prendere in considerazione nelle fasi che precedono la vera elaborazione dei dati (in questo caso, più che sugli aspetti di qualità, con l’aumento dei dati si va a sopperire ad aspetti legati alla quantità di dati disponibili).
Un altro importante aspetto della Data Preparation – come accennato – riguarda la ricerca di dati rilevanti e coerenti da distribuire, rendere disponibili e includere nelle applicazioni di analisi (soprattutto se dotate di funzionalità self-service) per garantire che forniscano le informazioni che gli utenti aziendali e gli analisti cercano utilizzando i sistemi di analisi dei dati.
I team che si occupano di Business Intelligence e analisi dei dati sempre più spesso sfruttano il processo di preparazione dei dati per controllare i dati ed integrare correttamente i set di dati affinché possano essere utilizzati autonomamente dagli utenti di business, per esempio attraverso gli strumenti di Business Intelligence self-service.
I vantaggi
La Data Preparation è in grado di produrre evidenti vantaggi in grado di riflettersi positivamente sull’intera Data Governance aziendale. Tra gli effetti benefici che una adeguata ed efficiente preparazione dei dati può garantire, ritroviamo:
- assicurare che i dati utilizzati nei processi di analisi e machine learning abbiano un sufficiente livello qualitativo per produrre risultati attendibili, in grado di generare valore per i processi aziendali;
- assicurare che i dati utilizzati nei processi di analisi e machine learning vengano predisposti in maniera adeguata, con il pieno controllo dei tempi e dei costi derivati dalla fase di preparazione dei dati;
- strutturare i dati in funzione del loro riutilizzo in varie circostanze analitiche;
- utilizzare strumenti avanzati in grado di automatizzare la preparazione dei dati, identificando ad esempio lacune ed errori che difficilmente emergerebbero al semplice occhio umano;
- in termini generali, la preparazione dei dati contribuisce a determinare un contesto di qualità in grado di produrre analisi più efficienti, ai fini di supportare al meglio le decisioni, il che si traduce in un ritorno dell’investimento più elevato ed in tempi certamente inferiori rispetto a quanto avverrebbe lavorando sulla base di una qualità dei dati più approssimativa.
I vantaggi derivanti dalla preparazione dei dati vanno dunque contestualizzati in ogni realtà aziendale. Se le tecniche e i metodi utilizzati nella Data Preparation sono il risultato di un lungo ed incessante processo di standardizzazione, un approccio tailor made risulta essenziale per personalizzare, in termini di benefici, gli aspetti di valore che si intende ottenere grazie all’elaborazione dei dati. È la ragione per cui la semplice azione dei software, per quanto evoluti questi possano essere, rischia di essere piuttosto asettica se non viene supportata dal know how degli specialisti dei dati e da una profonda conoscenza dei processi aziendali.
Come avviene la preparazione dei dati
È opportuno precisare come non vi siano dei processi dogmatici in merito dalla Data Preparation. Ciascun framework viene infatti personalizzato in funzione della tipologia di dati, dell’utilizzo previsto in sede di elaborazione, dei sistemi e degli strumenti software utilizzati dai data scientist.
Ogni azienda prepara i dati a modo suo, ma per avere un riferimento generale, end-to-end, della Data Preparation possiamo fare riferimento a sei fasi fondamentali, che coincidono in buona sostanza con quelli che potremmo definire i requisiti minimi, in termini qualitativi e procedurali, di una corretta azione preparatoria sui dataset.
Va inoltre precisato come tali operazioni non vengano quasi mai svolte in maniera del tutto manuale, ma mediante l’impiego di appositi software capaci di automatizzare le fasi di preparazione, riducendo sensibilmente i tempi e la complessità derivante soprattutto quando si ha a che fare con grandi numeriche, come nel caso dei Big Data.
I software utilizzati per la preparazione dei dati seguono logiche self-service, con procedure step-by-step e interfacce grafiche in grado di offrire una visione unificata delle operazioni attraverso comode dashboard riepilogative. È la ragione per cui gli strumenti di ottimizzazione della Data Preparation sono sempre più spesso integrati nelle piattaforme software di Business Analytics e/o Business Intelligence. È inoltre sempre più frequente l’integrazione di strumenti basati sulle tecnologie emergenti, come il machine learning, per operare in maniera intelligente sui dati, ai fini di ottimizzarne la strutturazione e l’impiego in ciascuna fase preparatoria.
Raccolta dei dati (Data Gathering)
La prima fase della Data Preparation vede la raccolta dei dati rilevanti da varie fonti, come i sistemi operativi, i sistemi IoT, i Data Warehouse, e i cataloghi di dati esistenti. È inoltre possibile acquisire i dati da dataset esterni ed implementarli ad hoc per le finalità richieste. In questa fase vengono effettuate varie verifiche sui dati per controllare in maniera dettagliata la loro funzionalità rispetto all’utilizzo che ne verrà fatto.
Esplorazione dei dati (Data Discovery)
La seconda fase della Data Preparation consiste nell’esplorazione dei dati racconti, ai fini di comprendere in maniera dettagliata cosa sia necessario fare per ottimizzarli in funzione degli utilizzi previsti. L’esplorazione è complementare alla profilazione dei dati, in cui vengono identificate incongruenze, anomalie, dati, attributi e metadati mancanti, piuttosto che qualsiasi possibile fonte problematica presente nei data set, ai fini di risolverli prima di procedere nelle successive fasi di preparazione. L’esplorazione è una fase che ha l’obiettivo di rendere più consapevoli dei contenuti dei data set a disposizione.
Pulizia dei dati (Data Cleaning)
La terza fase della Data Preparation consente di capitalizzare l’operato dell’esplorazione e della profilazione dei dati, correggendo gli errori, integrando le lacune ed eliminando le ridondanze riscontrate. La pulizia dei dati restituisce un dataset completo e dotato di una qualità ritenuta accettabile per le fasi elaborative.
Trasformazione e strutturazione dei dati (Data Transformation e Data Structuring)
La quarta fase della Data Preparation consiste nel rendere fruibile ed interoperabile il dataset, in modo da renderlo compatibile con le applicazioni che ne richiedono l’accesso per elaborarli. Si tratta quindi di agire in maniera soprattutto tecnica per modellare, strutturare ed organizzare i dati in formati e sistemi perfettamente compatibili con le richieste degli strumenti di analisi utilizzate dai data scientist.
Un esempio ricorrente è dato dai formati delle date, che sui sistemi americani è solitamente riepilogato come MM/DD/YY mentre altrove lo standard è il YY/MM/DD. Se non venisse risolta questa possibile incoerenza, le applicazioni potrebbero produrre dei report del tutto sconclusionati se non dovessero essere dotati di tool capaci di auto-rilevare questa differenza. È dunque bene che i dataset siano coerenti al loro interno con un unico formato data, oltre a prevedere quali applicazioni li utilizzeranno durante le elaborazioni, in modo da predisporre quello più opportuno.
Arricchimento dei dati (Data Transformation e Data Enrichment)
La quinta fase della Data Preparation entra nel merito di arricchire i dati strutturati di ulteriori informazioni. Questo processo solitamente avviene mediante l’aggiunta di ulteriori dati e il collegamento con altre fonti da cui attingere ad ulteriori approfondimenti. Si tratta di un lavoro di ottimizzazione finalizzato ad aggiungere valore informativo e renderli più profittevoli nelle successive elaborazioni. Il Data Enrichment viene infatti svolto tenendo presente soprattutto quelli che sono i principali aspetti di utilità per il business.
Validazione e Pubblicazione dei dati (Data Validation e Data Publication)
L’atto finale della preparazione dei dati coincide con la loro validazione e pubblicazione, previa verifica di coerenza ed accuratezza, operata grazie ad una serie di routine automatizzate. Dopo essere stati sottoposti a sei scrupolose fasi operative, i dati sono finalmente pronti per essere messi a sistema, nei Data Warehouse, Data Lake e altri repository, ed essere resi disponibili agli strumenti di elaborazione che dovranno estrarre valore informativo sulla base dei loro contenuti.
Dalla Data Preparation alla Data Visualization, il must-have è la Data Governance
Se la Data Preparation è il pilastro fondante per una adeguata Data Governance, la Data Visualization è l’altra “gamba di appoggio”, divenuta sempre più rilevante negli ultimi anni innescando un relazione bidirezionale con la governance dei dati: se da un lato, infatti, la Data Governance deve tenere conto delle opportunità offerte dalla visualizzazione dei dati e dal Data Storytelling per l’orchestrazione dei dati in ottica di semplificazione e accessibilità, dall’altro lato la Data Visualization non può non integrare funzionalità di governance dei dati, onde evitare il caos a livello di dati.
I tradizionali strumenti di Business Intelligence hanno da sempre fornito alcune importanti funzionalità per la Data Governance, ma l’introduzione della Self-Service Business Intelligence e la cosiddetta democratizzazione degli strumenti di analisi hanno complicato parecchio le cose dalla prospettiva del governo e dell’orchestrazione dei dati.
Con gli strumenti self-service, infatti, gli utenti possono facilmente creare “il proprio mondo di analisi” generando, seppur involontariamente, molteplici versioni “della verità” aziendale. Uno scenario che, se ben governato, potrebbe non creare affatto criticità, tutt’altro. Tuttavia, la discriminante sta proprio nel buon governo.
Se da un alto, l’analisi avanzata dei dati deve necessariamente proseguire la sua corsa alla democratizzazione affinché possa davvero essere sfruttata a tutti i livelli aziendali per produrre risultati efficaci, dall’altro lato tale evoluzione non può uscire dai confini della Data Governance.
Ecco perché Data Visualization e Data Storytelling sempre più spesso inglobano funzionalità di governance ed orchestrazione dei dati che, di fatto, rendono ancor più efficace l’obiettivo di business “nascosto” in tali strumenti: fare in modo che le informazioni contenute nei dati siano facilmente visibili alle persone di business per essere trasformate in “azioni” e produrre un valore di business attraverso decisioni efficaci e coerenti (sfida affrontabile a monte, prima con la Data Preparation, e poi con la Data Visualization e il Data Storytelling grazie ai quali i dati vengono semplificati, contestualizzati e resi comprensibili).
Data Catalogue: l’inventario dei dati disponibili e condivisibili che accelera le analisi
Un altro importante strumento della Data Governance, utile sia per la Data Preparation sia per la Data Visualization (nonché per l’orchestrazione dei dati in generale), è il catalogo dei dati.
Un Data Catalog, di fatto, è una raccolta di metadati combinata con strumenti di gestione e ricerca dei dati, utile per consentire ai Data Scientist e agli analisti dei dati (anche i non esperti con funzionalità di analisi self-service) di trovare in temi rapidi i dati di cui hanno bisogno. In altre parole è una sorta di “inventario di dati disponibili” cui attingere in modo facile e veloce.
La descrizione più efficace del Data Catalog è forse quella che diede Gartner nel 2017: “Un catalogo dei dati mantiene un inventario delle risorse di dati attraverso la scoperta, la descrizione e l’organizzazione dei set di dati. Il catalogo fornisce il contesto per consentire ad analisti di dati, scienziati di dati, amministratori di dati e altri utenti di dati di trovare e comprendere un set di dati rilevante allo scopo di estrarre valore aziendale”.
I cataloghi di dati sono diventati lo standard per la gestione dei metadati nell’era dei Big Data e dell’analisi self-service. I metadati di cui abbiamo bisogno oggi per “alimentare” sistemi avanzati di analisi (come per esempio quelli incentrati sui Big Data o quelli che sfruttano tecniche di Intelligenza Artificiale come machine Learning, Deep Learning, Natural Language Processing, Intelligent Data Processing, ecc.) sono molto più ampi dei metadati dell’era della Business Intelligence tradizionale. Un catalogo di dati si concentra innanzitutto sui set di dati (l’inventario dei dati disponibili e condivisibili) e collega tali set di dati con informazioni dettagliate da distribuire efficacemente a tutti gli utenti che lavorano con i dati.
Un moderno catalogo dei dati diventa, di fatto, una sorta di “fonte di fiducia” per l’azienda perché unifica tutti i metadati ed i set di dati e ne consente una ricerca, una valutazione ed un accesso semplificati. Le più avanzate tecnologie basate su tecniche di intelligenza artificiale, poi, consentono di automatizzare gli sforzi di raccolta dei metadati e di catalogazione; meccanismi di apprendimento automatico, infatti, consentono oggi il rilevamento automatico dei set di dati e la creazione iniziale del catalogo attraverso la raccolta dei metadati, l’inferenza semantica e il tagging.
Migliore efficienza dei dati, contesto dei dati migliorato, rischio di errore ridotto anche ai fini della compliance normativa), analisi dei dati migliorata. Questi i vantaggi principali da associare al Data Catalog il cui valore maggiore, tuttavia, è da ricercare nell’impatto sulle attività di analisi dei dati: nell’era delle analisi self-service, il valore di business si concretizza con l’agilità e la velocità grazie alla quali si giunge ad avere informazioni e conoscenza utili al processo decisionale; in tale contesto operativo il tempo “perso” per cercare i dati, capire quali sono i set di dati esistenti, capire quali sono i loro contenuti, la loro qualità ed utilità non è più tollerabile (oltre al fatto che passare troppo tempo a trovare e comprendere i dati potrebbe anche tradursi in attività che portano a ricreare set di dati già esistenti, rendendo molto complessa la governace dei dati).
Con un catalogo di dati, al contrario, si è in grado di cercare e trovare rapidamente i dati, vedere tutti i set di dati disponibili e condivisibili, valutare e capire quali dati utilizzare ed eseguire la Data Preparation, l’analisi dei dati e la Data Visualization in modo efficiente, sicuro e governato.
Categoria: DATA GOVERNANCE

Data Fabric: cos’è e quali i vantaggi nel suo utilizzo
Le aziende si trovano ad interfacciarsi con ambienti sempre più diversificati, distribuiti e complessi. Rendere… Leggi tutto

Data Lineage: come assicurarsi qualità e integrità dei dati
Tracciare i dati attraverso il loro ciclo di vita è un tema di valenza strategica.… Leggi tutto

Cos’è la Data Quality e le metriche di riferimento
La Data Quality è una misura della condizione dei dati basata su fattori quali accuratezza,… Leggi tutto