Per quanto il data lineage sia uno dei termini meno inflazionati nel glossario della data science, le sue attività risultano fondamentali per la conoscenza dei dati, l’asset più strategico attualmente a disposizione delle aziende digitali, sin dal momento in cui fanno la comparsa nei loro sistemi di gestione.

Nel contesto di una strategia di data management articolata, efficiente e calibrata sulle reali esigenze di business dell’organizzazione che la supporta, il data lineage consente di raggiungere elevati livelli di consapevolezza sui dati, per gestirli e sfruttarli nella maniera più efficace, soprattutto quando si tratta di renderli disponibili alle applicazioni di business intelligence e business analytics.

La base di conoscenza sui dati che una corretta attività di data lineage consente di implementare rientra in una logica strategica orientata al miglioramento continuo, nel caso volta a raggiungere una data quality sempre più elevata, ottimizzando al tempo stesso le risorse necessarie, soprattutto per quanto concerne i tempi e i costi generali.

Cos’è il data lineage 

Il data lineage è una disciplina della data science che si occupa di tracciare il ciclo di vita dei dati, osservando tutte le trasformazioni all’interno dei sistemi informativi aziendali. In altri termini, il data lineage garantisce la derivazione e la tracciabilità dei dati in funzione della variabile tempo. Il termine lineage non ha un equivalente diretto nella nostra lingua. Si preferisce quindi conservare la sua definizione originale, quale espressione di una linea di discendenza dei dati, secondo le logiche di un tradizionale albero genealogico.

Il data lineage si occupa altresì di descrivere l’evoluzione storica dei dati attraverso una cronologia dettagliata, utile a conservare le tracce relative ai movimenti, alle caratteristiche e alla qualità stessa di tali asset digitali.

Il data lineage costituisce pertanto uno degli elementi chiave per sostenere una strategia di data governance efficiente, grazie ad una elevata visibilità sui dati a disposizione, che si esprime attraverso una serie di informazioni dettagliate per gestirli nel modo più opportuno. Conoscere al meglio i propri dati consente alle aziende di favorire la diffusione presso i propri dipendenti di quella cultura data driven indispensabile per valorizzare al meglio il patrimonio informativo di cui dispongono.

I due momenti fondamentali del data lineage sono collocabili nel tracciare l’origine e le trasformazioni dei dati, in modo tra conoscere le motivazioni e le finalità che hanno portato a gestirli in un determinato modo. Per tali ragioni, il data lineage potrebbe essere esemplificato quale un vero e proprio passaporto dei dati, che riporta i luoghi in cui è stato con tanto di validazioni di ingresso e permessi consentiti, tracciando, attraverso i metadati, sia la cronologia che le motivazioni dei loro spostamenti (trasformazioni).

Il tracciamento consente agli specialisti dei dati e ai dipendenti delle varie linee di business aziendali di ottenere, attraverso appositi strumenti, le informazioni necessarie per gestire il patrimonio informativo aziendale lungo l’intero ciclo di vita dei dati stessi.

Obiettivi e scopi della data lineage

Grazie al tracciamento della storia dei dati nei sistemi informativi aziendali, il data lineage risulta funzionale al business sotto vari punti di vista, con lo scopo di:

  • – Conoscere nel dettaglio l’origine dei dati, dalla fonte da cui sono stati acquisiti al sistema di gestione in cui sono stati caricati ed archiviati;
  • – Tracciare i movimenti e le trasformazioni avvenute all’interno dei sistemi di gestione dei dati (es. database, data lake, data warehouse, ecc.);
  • – Tracciare l’utilizzo dei dati in merito alle applicazioni e ai processi che li vedono coinvolti;
  • – Ottenere una visibilità elevate sull interazioni e le correlazioni tra i dati nei loro sistemi di gestione, tendendo soprattutto in considerazione le applicazioni di business intelligence e business analytics;
  • – Ottenere un generale incremento della data quality, nella logica di una strategia basata sul miglioramento continuo.
  • – Valutare, a vario titolo, gli impatti che le trasformazioni dei dati generano sui processi che li vedono coinvolti.

I tool del data lineage: le funzioni principali 

I moderni strumenti di data lineage consentono di processare e mappare enormi quantità di dati provenienti da varie fonti lungo un arco temporale anche molto esteso. Grazie ad una gestione efficiente dei metadati presenti nei file, i software di data lineage possono interrogare con facilità anche basi di dati di dimensioni molto grandi.

Tra le varie informazioni che vengono tracciate grazie al data lineage figura, ad esempio, la possibilità di verificare, in qualsiasi momento, che a seguito di eventuali modifiche, i dati conservino in maniera corretta il formato per risultare perfettamente compatibile ed interoperabile con le applicazioni previste. Giusto per citare una delle innumerevoli casistiche che possono presentarsi ogni giorno.

I tool di data lineage consentono inoltre di automatizzare una serie di procedure che tradizionalmente venivano svolte manualmente, come la collezione dei metadati. A prescindere dal fatto che oggi un approccio di questo genere non sarebbe più sostenibile a causa delle enormi numeriche di dati coinvolti, l’automatizzazione consente di preparare e gestire i file in maniera più rapida, riducendo contestualmente il rischio di incorrere in errori dovuti alle possibili distrazioni dell’uomo.

Tra le principali funzioni dei tool di data lineage possiamo citare:

  • – Aggregazione dei metadati e caricamento nei repository centralizzati;
  • – Verifica e unificazione dei formati provenienti da differenti sistemi di dati;
  • – Connessione con le più popolari fonti di dati, con estensioni che consentono di esplorare il contenuto dei metadati e collezionarli secondo le policy previste;
  • – Visualizzazione end-to-end dello storico relativo all’intero ciclo di vita dei dati;
  • – Presentazioni ad hoc per facilitare la comprensione dei metadati e validare le loro descrizioni;
  • – Integrazione con strumenti di data visualization;
  • – Gestione delle API per integrazione nei sistemi aziendali esistenti;
  • – Visibilità unificata dei dati presenti nei vari sistemi aziendali;
  • – Motore di ricerca ottimizzato per la visibilità del tracciamento del flusso dei dati;

Il valore del data lineage

Il data lineage offre numerosi vantaggi a chi interagisce con i dati nella prospettiva di rendere più efficiente la data governance aziendale. Per cogliere alcuni vantaggi specifici di una corretta attività di data lineage potremmo ad esempio considerare i seguenti aspetti:

  • – Analisi dei Data Incident: anziché limitarsi al riscontro degli errori alla fine del processo che li coinvolge, è molto più conveniente ottenere una visibilità lungo l’intero ciclo di vita. Soltanto così i sistemi di intelligence utilizzati nell’incidente response potranno individuare con sufficiente certezza le cause che hanno portato ad una violazione dei dati, o ad un tentativo di raggiungere tale obiettivo. Il data lineage consente di ricostruire agevolmente e velocemente la catena che ha prodotto quel dato e, quindi, di individuare facilmente il momento in cui l’errore si è manifestato;
  • – Impact Analysis: quando si interviene effettuando modifiche ai sistemi esistenti, per motivi normativi, di business o semplicemente per modernizzare il software e renderlo più efficiente, si finisce per generare una serie di modifiche ai dati o alle applicazioni che li utilizzano. Il data lineage consente di valutare a priori quali applicazioni, quali dati e quali processi vengono interessati a monte e a valle dalle modifiche previste, supportando le decisioni in merito agli aggiornamenti delle varie applicazioni;
  • – Performance Assessment: il data lineage consente di individuare eventuali “colli di bottiglia” nella gestione dei dati e consente, quindi, di intervenire con soluzioni alternative che possono essere valutate mediante l’impact analysis.

Esempi e tecniche di data lineage 

L’asset di riferimento del data lineage è costituito dai metadati, che informano i sistemi in relazione alle proprietà dei file, descrivendo le loro caratteristiche e l’evoluzione del loro ciclo di vita, considerando voci quali: formato, dominio, struttura, campi e qualsiasi categoria possa consentire di interrogare i dati stessi in qualsiasi momento per ottenere informazioni circa il loro stato. 

Se i metadati sono organizzati in maniera efficiente, le query saranno in grado di ottenere in maniera semplice e rapida le informazioni di cui necessitano. In questo frangente i tool di automatizzazione dei software di data lineage si rivelano molto spesso un prezioso alleato per chi si occupa di data management in azienda. 

Oltre agli aspetti di carattere tecnico, il data lineage tiene conto di tutti gli aspetti relativi alla tracciabilità del dato, tra cui la coerenza con le policy e le normative vigenti in fatto di privacy e sicurezza informatica. 

Il metadata management consente inoltre di effettuare un tracciamento continuo tra gli aspetti di business e quelli operativi che avvengono nel contesto dei processi aziendali, per garantire una elevata visibilità dei dati lungo l’intero ciclo di vita: dalla loro origine al modo e alle tempistiche con cui vengono utilizzati nei già citati processi che li coinvolgono nelle attività di business analytics e business intelligence. 

La conoscenza del dato consente di ottenere informazioni fruibili da un pubblico più ampio rispetto ai soli specialisti della data science. Il data lineage consente di ottenere facilmente report e insight in grado di supportare le decisioni del personale non tecnico, come spesso avviene nel caso della finanza o dell’industria farmaceutica, tenute a tracciare rispettivamente i flussi finanziari e l’intera filiera del farmaco, ai fini di tutelare e garantire la sua autenticità. 

Senza scendere nel contesto delle applicazioni verticali, nel generico contesto aziendale i dati vengono gestiti all’interno di sistemi di gestione predisposti per tale scopo, come i data warehouse, dopo essere stati preparati con un processo ETL (Extract, Transform and Load), finalizzato a garantire un adeguato livello di data quality. In questo contesto il data lineage si occupa di descrivere le trasformazioni che intervengono nel processo ETL, in modo da ottenere in qualsiasi momento le informazioni relative ai file stessi. 

Data lineage, data governance e data quality 

Nel fitto vocabolario della data science sussiste una forte interdipendenza tra data lineage, data governance e data quality. Attraverso la gestione dei metadati (metadata management) il data lineage traccia e descrive in maniera dettagliata l’intero ciclo di vita dei dati: da dove provengono, dove stanno andando, quali trasformazioni vengono loro applicate dalle varie applicazioni con cui sono chiamati ad interagire.  

Dal punto di vista della data quality e della data governance, il data lineage consente di implementare strumenti e metodologie capaci di garantire l’applicazione di determinate policy di gestione, la corretta applicazione delle stesse, che le trasformazioni dei file avvengano in maniera corretta, oltre a preservare la compatibilità e l’interoperabilità dei file nella condizione di input e output dei processi. 

La tracciabilità dei dati, garantita dal data lineage, si profila come uno strumento molto efficace per la validazione dei dati e rappresenta uno strumento di controllo relativo al loro utilizzo anche a scopo di audit e di conformità alle normative vigenti da parte delle aziende responsabili della loro conservazione e del loro trattamento. 

New call-to-action


ARGOMENTI CORRELATI
Categoria: DATA GOVERNANCE
Data Quality - concept per richiamare l'attenzione sul concetto di aiuto e supporto per superare una difficoltà. Immagine che raffigura due uomini che scalano una montagna, uno aiuta l'altro a salire sulla cima

Cos’è la Data Quality e le metriche di riferimento

La Data Quality è una misura della condizione dei dati basata su fattori quali accuratezza,… Leggi tutto

data as a service: cos'è quali vantaggi porta, esempi applicativi e sfide del futuro. Immagine che raffigura un uomo alla scrivania mentre telefona di fronte al computer.

Data as a Service: cos’è a cosa serve

I modelli a servizi disponibili in cloud consentono di avere nuove opzioni di utilizzo dei… Leggi tutto

Data Quality e Data Governance. Concept grafico che rappresenta l'ordine e la qualità ottenibile con la data governance

Fare ordine tra i dati: dalla Data Quality alla Data Governance 

Mettere ordine tra i propri dati aziendali è il primo passo, lo step fondamentale per… Leggi tutto