Avere dati di qualità, utilizzabili per tutto il loro ciclo di vita e distribuiti perché possano generare valore nel modo giusto e al momento opportuno, significa essersi dotati di una efficace Data Governance.

Ma quali sono i pilastri e le tecnologie per modellare quella che non è una semplice gestione del dato, ma una vera e propria strategia di valorizzazione del patrimonio aziendale più prezioso?

Nell’articolo “Data Governance: come uscire dal caos e orchestrare al meglio i dati” abbiamo avuto modo di esplorare i tre differenti livelli della governance dei dati, vista come framework metodologico: Data Preparation, Data Visualization e Data Management, con la Data Quality a fare da sfondo comune a tutti e tre i livelli.

Vediamo ora quali sono le caratteristiche di questi pilastri e quali sono le tecnologie alla base di una efficace orchestrazione dei dati.

 

Data Preparation, dai dati grezzi ai dati utili al business

La cosiddetta Data Preparation consiste nell’atto di manipolare, pre-elaborare, dati grezzi provenienti da svariate fonti e in formati differenti, per trasformarli in dati utilizzabili dai sistemi aziendali in uso.

Di fatto, la preparazione dei dati è il processo di raccolta, pulizia, consolidamento, strutturazione e organizzazione dei dati per il loro utilizzo in applicazioni di Business Intelligence (BI) e Advanced Analytics, o più in generale per l’analisi e la visualizzazione dei dati.

I componenti della preparazione dei dati includono la raccolta di dati da diversi sistemi interni e fonti esterne, la loro pre-elaborazione, la profilazione, la pulizia, la convalida e la trasformazione dei dati.

Le tecnologie più comuni utilizzate per la Data Preparation sono quelle di ETL – Extract, Transform, Load (processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi o di analisi) e di Data Quality.

Solitamente infatti il lavoro di preparazione dei dati viene svolto dai team IT, di BI e di gestione dei dati che lavorano sui dati ed integrano i set di dati da caricare in un data warehouse, un database o un repository di data lake. Sempre più spesso, però, contribuiscono alla Data Preparation anche i data scientist ed altri analisti di dati o utenti aziendali che possono utilizzare strumenti di preparazione dei dati self-service per raccogliere e preparare i dati stessi in modo autonomo, senza ricorrere ai team IT.

 

? Gli obiettivi della Data Preparation

L’obiettivo principale della preparazione dei dati è garantire che i dati grezzi vengano predisposti accuratamente per l’elaborazione e l’analisi dei dati e assicurarsi che siano accurati e coerenti in modo che i risultati delle applicazioni di BI e di analisi siano validi.

Quando vengono creati, i dati spesso presentano valori mancanti, imprecisioni, errori di varia natura. Spesso set di dati separati hanno formati diversi e devono essere “riconciliati” perché possano essere sfruttati dai sistemi. Ecco perché una parte consistente del lavoro di Data Preparation, prima ancora della pre-elaborazione dei dati, è data dalla correzione degli errori nei dati, dalla verifica della qualità dei dati e dall’unione dei set di dati.

Un altro importante tassello della Data Preparation – come accennato – riguarda la ricerca di dati rilevanti e coerenti da distribuire, rendere disponibili e includere nelle applicazioni di analisi (soprattutto se dotate di funzionalità self-service) per garantire che forniscano le informazioni che gli utenti aziendali e gli analisti cercano utilizzando i sistemi di analisi dei dati.

I team che si occupano di Business Intelligence e analisi dei dati sempre più spesso sfruttano il processo di preparazione dei dati per controllare i dati ed integrare correttamente i set di dati affinché possano essere utilizzati autonomamente dagli utenti di business, per esempio attraverso gli strumenti di Business Intelligence self-service.

 

? Le fasi della Data Preparation

 Il processo di preparazione dei dati varia a seconda dell’organizzazione IT e delle esigenze aziendali, tuttavia, le fasi che ne determinano la struttura sono sostanzialmente sei:

1️⃣ Gather – Raccolta dati. I dati rilevanti vengono raccolti da sistemi operativi, data warehouse e altre fonti di dati, come per esempio un catalogo di dati esistente oppure preparato ed aggiunto ad hoc per le finalità richieste. Avviene in questa fase anche la verifica sui dati, ossia il controllo della loro validità rispetto all’utilizzo che ne verrà fatto.

2️⃣ Discover – Scoperta e profilazione dei dati. In questa seconda fase si procede con la cosiddetta esplorare dei dati raccolti per comprendere meglio cosa contengono e cosa è necessario fare per prepararli per gli usi previsti. La profilazione dei dati serve per identificare modelli, incongruenze, anomalie, dati mancanti e altri attributi e problemi nei set di dati in modo che i problemi possano essere risolti prima che vengano utilizzati nei sistemi di analisi (rendendo poi invalidati i risultati).

3️⃣ Clean – Pulizia dei dati. Gli errori di dati identificati nella fase precedente vengono corretti in questo terzo passaggio, necessario per creare set di dati completi e accurati pronti per essere elaborati e analizzati. La pulizia dei dati prevede, per esempio, che i dati difettosi vengano rimossi o corretti, che i valori mancanti vengano inseriti e le voci incoerenti vengano armonizzate.

4️⃣ Transform – Strutturazione dei dati. In relazione alla strutturazione dei dati, spesso devono essere trasformati per renderli coerenti e trasformarli in informazioni utilizzabili. A questo punto, dunque, i dati devono essere strutturati, modellati e organizzati in un formato unificato che soddisfi i requisiti degli usi analitici pianificati.

5️⃣ Enrich – Arricchimento dei dati. L’arricchimento dei dati si riferisce all’aggiunta e al collegamento dei dati con altre informazioni correlate per fornire approfondimenti. L’arricchimento e l’ottimizzazione dei dati migliorano ulteriormente i set di dati necessari perché possano poi produrre, attraverso la loro elaborazione ed analisi, le informazioni aziendali utili al business o ad altri processi operativi.

6️⃣ Store – Convalida e pubblicazione dei dati. Per completare il processo di preparazione, vengono eseguite routine automatiche sui dati per convalidarne la coerenza, la completezza e l’accuratezza. I dati preparati vengono quindi archiviati in un data warehouse, un data lake o altri repository e resi disponibili per l’uso da parte delle applicazioni aziendali.

 

? I vantaggi della preparazione dei dati

Uno dei grandi vantaggi nell’istituire un processo di Data Preparation (supportato dalle piattaforme tecnologiche che integrano tutte le funzionalità necessarie per svolgere efficacemente tutte le fasi della preparazione dei dati) è la riduzione del tempo necessario a trovare e strutturare i dati, una delle criticità maggiori per i data scientist; tempo che si “libera” e che può essere dedicato al data mining, all’analisi avanzata dei dati, alle attività relative alla BI che forniscono reale valore aziendale.

Gli altri importanti vantaggi della Data Preparation sono:

– garantire che i dati utilizzati per BI, apprendimento automatico, analisi predittiva e altre applicazioni di analisi abbiano livelli di qualità sufficienti per produrre risultati affidabili;

– evitare la duplicazione degli sforzi nella preparazione dei dati che possono essere utilizzati in più applicazioni;

– preparare i dati per l’analisi in modo conveniente ed efficiente;

– identificare e risolvere problemi relativi ai dati che altrimenti potrebbero non essere rilevati;

– prendere decisioni aziendali più informate ed oggettive perché gli utenti di business hanno accesso a dati migliori e di qualità;

– ottenere più valore aziendale e un maggiore ritorno sull’investimento dalle sue iniziative di BI e analisi.

 

Data Visualization, il must-have è la Data Governance

Se la Data Preparation è il pilastro fondante per una adeguata Data Governance, la Data Visualization è l’altra “gamba di appoggio”, divenuta sempre più rilevante negli ultimi anni innescando un relazione bidirezionale con la governance dei dati: se da un lato, infatti, la Data Governance deve tenere conto delle opportunità offerte dalla visualizzazione dei dati e dal Data Storytelling per l’orchestrazione dei dati in ottica di semplificazione e accessibilità, dall’altro lato la Data Visualization non può non integrare funzionalità di governance dei dati, onde evitare il caos a livello di dati.

I tradizionali strumenti di Business Intelligence hanno da sempre fornito alcune importanti funzionalità per la Data Governance, ma l’introduzione della Self-Service Business Intelligence e la cosiddetta democratizzazione degli strumenti di analisi hanno complicato parecchio le cose dalla prospettiva del governo e dell’orchestrazione dei dati.

Con gli strumenti self-service, infatti, gli utenti possono facilmente creare “il proprio mondo di analisi” generando, seppur involontariamente, molteplici versioni “della verità” aziendale. Uno scenario che, se ben governato, potrebbe non creare affatto criticità, tutt’altro. Tuttavia, la discriminante sta proprio nel buon governo.

Se da un alto, l’analisi avanzata dei dati deve necessariamente proseguire la sua corsa alla democratizzazione affinché possa davvero essere sfruttata a tutti i livelli aziendali per produrre risultati efficaci, dall’altro lato tale evoluzione non può uscire dai confini della Data Governance.

Ecco perché Data Visualization e Data Storytelling, di cui abbiamo già ampiamente avuto modo di parlare, sempre più spesso inglobano funzionalità di governance ed orchestrazione dei dati che, di fatto, rendono ancor più efficace l’obiettivo di business “nascosto” in tali strumenti: fare in modo che le informazioni contenute nei dati siano facilmente visibili alle persone di business per essere trasformate in “azioni” e produrre un valore di business attraverso decisioni efficaci e coerenti (sfida affrontabile a monte, prima con la Data Preparation, e poi con la Data Visualization e il Data Storytelling grazie ai quali i dati vengono semplificati, contestualizzati e resi comprensibili).

 

Data Catalogue: l’inventario dei dati disponibili e condivisibili che accelera le analisi

Un altro importante strumento della Data Governance, utile sia per la Data Preparation sia per la Data Visualization (nonché per l’orchestrazione dei dati in generale), è il catalogo dei dati.

Un Data Catalog, di fatto, è una raccolta di metadati combinata con strumenti di gestione e ricerca dei dati, utile per consentire ai data scientist e agli analisti dei dati (anche i non esperti con funzionalità di analisi self-service) di trovare in temi rapidi i dati di cui hanno bisogno. In altre parole è una sorta di “inventario di dati disponibili” cui attingere in modo facile e veloce.

La descrizione più efficace del Data Catalog è forse quella che diede Gartner nel 2017: “Un catalogo dei dati mantiene un inventario delle risorse di dati attraverso la scoperta, la descrizione e l’organizzazione dei set di dati. Il catalogo fornisce il contesto per consentire ad analisti di dati, scienziati di dati, amministratori di dati e altri utenti di dati di trovare e comprendere un set di dati rilevante allo scopo di estrarre valore aziendale”.

I cataloghi di dati sono diventati lo standard per la gestione dei metadati nell’era dei Big Data e dell’analisi self-service. I metadati di cui abbiamo bisogno oggi per “alimentare” sistemi avanzati di analisi (come per esempio quelli incentrati sui Big Data o quelli che sfruttano tecniche di Intelligenza Artificiale come machine Learning, Deep Learning, Natural Language Processing, Intelligent Data Processing, ecc.) sono molto più ampi dei metadati dell’era della Business Intelligence tradizionale. Un catalogo di dati si concentra innanzitutto sui set di dati (l’inventario dei dati disponibili e condivisibili) e collega tali set di dati con informazioni dettagliate da distribuire efficacemente a tutti gli utenti che lavorano con i dati.

Un moderno catalogo dei dati diventa, di fatto, una sorta di “fonte di fiducia” per l’azienda perché unifica tutti i metadati ed i set di dati e ne consente una ricerca, una valutazione ed un accesso semplificati. Le più avanzate tecnologie basate su tecniche di intelligenza artificiale, poi, consentono di automatizzare gli sforzi di raccolta dei metadati e di catalogazione; meccanismi di apprendimento automatico, infatti, consentono oggi il rilevamento automatico dei set di dati e la creazione iniziale del catalogo attraverso la raccolta dei metadati, l’inferenza semantica e il tagging.

Migliore efficienza dei dati, contesto dei dati migliorato, rischio di errore ridotto anche ai fini della compliance normativa), analisi dei dati migliorata. Questi i vantaggi principali da associare al Data Catalog il cui valore maggiore, tuttavia, è da ricercare nell’impatto sulle attività di analisi dei dati: nell’era delle analisi self-service, il valore di business si concretizza con l’agilità e la velocità grazie alla quali si giunge ad avere informazioni e conoscenza utili al processo decisionale; in tale contesto operativo il tempo “perso” per cercare i dati, capire quali sono i set di dati esistenti, capire quali sono i loro contenuti, la loro qualità ed utilità non è più tollerabile (oltre al fatto che passare troppo tempo a trovare e comprendere i dati potrebbe anche tradursi in attività che portano a ricreare set di dati già esistenti, rendendo molto complessa la governace dei dati).

Con un catalogo di dati, al contrario, si è in grado di cercare e trovare rapidamente i dati, vedere tutti i set di dati disponibili e condivisibili, valutare e capire quali dati utilizzare ed eseguire la Data Preparation, l’analisi dei dati e la Data Visualization in modo efficiente, sicuro e governato.

Vuoi capire nella pratica come si arriva alla Data Governance? Leggi l’articolo “Data Governance: come uscire dal caos e orchestrare al meglio i dati” e scopri il case study sul progetto per CPL  ?

 

New call-to-action

Approfondimenti da BNext:

Data Governance: governare processi e responsabilità sui dati. Un use case in ambito finance.

Secondo Gartner erwin by Quest è la soluzione di Data Governance leader di mercato. Ecco i vantaggi in un use case in ambito finance

Le tecnologie di data virtualization e di metadata management

Le tecnologie di data virtualization e di metadata management sono fondamentali per una data governance efficace in azienda. Ecco perché

La virtualizzazione dei dati per una efficace data lineage

La data virtualization come tecnologia di integrazione dati. Cos’è e perché è efficace per la data lineage

La data lineage nella Data Governance aziendale

Data lineage: l’origine dei dati, dove e come si spostano nel tempo. Consente di “mappare” tutto il ciclo di vita del dato.

erwin: l’acquisizione di Quest Software

Nel mondo IT molte sono le joint venture, è il caso di Quest, società software e servizi IT. erwin: l’acquisizione di Quest a dicembre 2020

Data Governance: superare i colli di bottiglia con erwin

La #DataGovernance è qualcosa di più della mera gestione del rischio: la conformità rispetto alle regolamentazioni in merito a queste tematiche è un valore aggiunto, ma la sua applicazione è spesso difficile a causa di una serie di colli di bottiglia che la frenano: data lineage assenti, qualità dei dati non certificata, contesto aziendale non pronto. Con erwin però puoi superarli!

Un framework per la Data Governance 2.0

La aziende hanno bisogno dei dati per prendere decisioni, la loro efficacia dipende anche dalla loro gestione. Scopri il framework per la Data Governance 2.0 per garantire l’accesso e uso dei dati in modo controllato e sicuro da chiunque ne abbia bisogno

Data Governance: come uscire dal caos e orchestrare al meglio i dati

La Data Governance è un insieme di strategie, processi e policy definite a monte della gestione e dell’utilizzo dei dati con l’obiettivo di gestirli per limitare rischi, prevenire errori, risolvere i problemi legati ai dati e alla loro (spesso) scarsa qualità

BigData4Business Toolkit: la metodologia per una strategia aziendale che incorpori i Big Data

BNova lavora da anni nell’ambito dei dati e dell’innovazione, con un approccio tecnico, ma con uno sguardo sempre rivolto al business per cogliere le esigenze dei clienti anche a livello strategico. Da questo approccio che nasce il nostro Big Data 4 Business Toolkit

Big Data 4 Business Toolkit

Big Data 4 Business ToolkitBNova Big Data 4 Business ToolkitL'unione di metodi, concetti, strumenti ed esercizi praticia supporto dei business user.Identificare dove, come e perché utilizzare i Big Data in azienda. Lo scopo è quello di fornire un toolkit che aiuterà i...