Data lineage si traduce letteralmente in “discendenza dei dati” ed include la loro origine, tutto ciò che accade ad essi, dove e come si spostano nel tempo. In altre parole, è ciò che, nell’ambito della Data Governance, consente di “mappare” (anche attraverso strumenti e funzionalità di data visualization) tutto il ciclo di vita del dato: indica da dove provengono i dati, dove stanno “andando” (verso quali applicazioni o sistemi ed a supporto di quali processi), se e quali trasformazioni subiscono all’interno del patrimonio informativo aziendale, dove e quando “escono” dall’azienda.

Oggi le aziende sono chiamate ad avere una strategia di Data Governance efficace perché sempre più processi operativi, e ancor di più i processi decisionali, necessitano dei dati e della loro analisi. La varietà di fonti di dati, ormai pressoché illimitata, pone però nuove sfide in termini di gestione: la necessità di avere a disposizione dati pronti, integri, corretti, consistenti, di qualità è allo stesso tempo prerequisito ormai imprescindibile per prendere decisioni oggettive, efficaci e consapevoli, non solo in termini strategici ma anche per la gestione operativa. In quest’ottica la data lineage può essere vista come un prerequisito della Data Quality (ma attenzione a non confondere le due cose).

 

Cos’è la data lineage, l’albero genealogico dei dati

Data lineage è il termine comune con il quale, nell’ambito della Data Science, si identifica la derivazione e la tracciabilità dei dati. Il termine lineage (lignaggio) fa riferimento ad un albero genealogico o ad una linea di discendenza da un antenato.

Applicato ai dati, il lignaggio fa riferimento alla discendenza dei dati e comprende due aspetti principali:

  • – l’origine, ossia la provenienti dei dati;
  • – il cambiamento, cioè come, dove e perché i dati sono cambiati.

Una prima definizione di data lineage potrebbe dunque essere: il viaggio che i dati compiono dalla loro origine attraverso tutte le trasformazioni nel tempo. Ciò che consente, in ambito IT, di descrivere e tracciare l’origine, il movimento, le caratteristiche e la qualità di un determinato set di dati.

La comprensione e la tracciabilità del cambiamento nei dati implica una capacità di governance e di mappatura della catena dei dati, di tutte le “regole” che sono state applicate ai dati mentre si muovono e si trasformano lungo la catena di dati e degli effetti che tali regole hanno avuto sui dati (cioè come hanno modificato i dati).

Origine e cambiamento/movimento sono i due pilastri portanti della data lineage perché consentono di tenere traccia di tutte le caratteristiche dei dati durante il loro ciclo di vita. Qualsiasi dato, o set di dati, che cambia mentre si muove all’interno della catena di dati, ad ogni passaggio potrebbe perdere alcune delle sue caratteristiche precedenti ma anche acquisirne di nuove durante “l’evoluzione”. Ecco perché è di fondamentale importanza tenerne traccia in modo chiaro e trasparente.

 

A cosa serve, in pratica, la data lineage

Come accennato, la discendenza dei dati è importante per la misurazione della qualità dei dati e la Data Governance. Tanto più è approfondita la conoscenza del dato, dalla sua origine e lungo tutti i suoi spostamenti e trasformazioni, tanto più risulterà efficace la loro qualità e governance.

Questo ci fa capire a cosa serve, davvero, la data lineage nelle aziende e qual è il suo legame con la Data Governance. Estremizzando un po’ con le semplificazioni, possiamo dire che la tracciabilità e la mappatura della discendenza dei dati serve a:

  • – capire in modo chiaro da dove provengono i dati;
  • – comprendere come i dati vengono utilizzati in azienda (in quali applicazioni, per quali processi, ecc.);
  • – tracciare come si muovono i dati all’interno dei sistemi informativi aziendali;
  • – visualizzare, tracciare e capire in che modo, dove e quando i dati subiscono trasformazioni e comprendere quali sono e che impatti generano;
  • – scovare le interdipendenze tra dati e sistemi aziendali.

 

Da un punto di vista più tecnico, IT, la data lineage rappresenta uno degli asset più importanti nell’ambito del metadata management perché si realizza partendo dalla conoscenza e controllo dei metadati (quelli che rappresentano, di fatto, le informazioni sui dati e che, quindi, permettono di estrarre ciò che serve alla data lienage stessa: le informazioni sull’origine, il movimento ed il cambiamento dei dati).

I metadati che rendono possibile la data lineage, solitamente, sono sia di natura tecnica (metadati tecnici o operativi) sia legati all’organizzazione aziendale (metadati di business). I primi descrivono tecnicamente la natura dei dati (struttura, formato, dominio, campi, accessibilità, ecc.), i secondi invece sono più legati ad una terminologia di carattere più business e consentono di identificare il contesto aziendale o le regole di business cui si riferiscono i dati (processo di business, normativa di riferimento, livello di sicurezza, policy aziendali, ecc.).

Lavorare su entrambe le tipologie di metadati, soprattutto dalla prospettiva della data lineage, consente di creare e mappare un collegamento reale tra business ed operations tracciando in modo chiaro dove e come vengono davvero utilizzati i dati.

La gestione dei metadati facilita l’archiviazione e l’utilizzo dei dati all’interno dell’organizzazione, è quindi un elemento fondamentale per la Data Governance. La data lineage aggiunge un importante tassello al tutto perché “sfrutta” i metadati per innalzare il livello della qualità del dato, altro importante pilastro della Data Governance.

 

I benefici generati dalla data lineage

Se volessimo fare un piccolo esercizio di stile, potremmo “incastrare” la data lineage come il mattoncino strettamente correlato al Metadata management, e la Data Quality come l’anello di congiunzione tra la data lineage e la Data Governance.

Rinunciare alla data lineage sarebbe un po’ come giocare al telefono senza fili. Come accennato, però, la discendenza dei dati può offrire numerosi vantaggi sia per l’IT sia per il business, tra i quali:

  • – avere una mappatura chiara ed esplicita del ciclo di vita dei dati
  • – evidenziare e comprendere le regole legate ai dati e la trasformazione subita ad ogni movimento
  • – identificare ridondanze, correlazioni e interdipendenze tra i dati e tra dati e processi
  • – comprensione di chi e come utilizza i dati (con quali applicazioni, per quali processi, con quali output, ecc.), cioè di come si muovono i dati all’interno della propria organizzazione.

Aspetto quest’ultimo molto utile anche per la Compliance normativa.

 

Dalla più ampia prospettiva della Data Governance, la data lineage offre inoltre importanti benefici anche in relazione all’analisi dei dati, nello specifico per:

Data Incident: con la data lineage si riesce a ricostruire l’intero processo di produzione e movimento del dato e quindi individuare con più rapidità e semplicità le “aree” all’interno della catena dove eventualmente avvengono degli errori;

Performance Assessment: grazie alla mappatura dei flussi di dati, con la data lineage si riescono a identificare in modo rapido i “colli di bottiglia” ed eventualmente anche ad evitarli o risolverli in modo estremamente rapido senza causare impatti sulle performance;

Analisi degli impatti: grazie alla mappatura e alla tracciabilità che permettono di identificare correlazioni tra i dati, e questi ultimi ed i processi o le applicazioni, la data lineage diventa l’elemento grazie al quale poter valutare gli impatti che possono generare determinati interventi (per esempio modificando processi in base a nuove regole o in risposta alle normative più attuali oppure introducendo modifiche o aggiornamenti ai sistemi applicativi);

Compliance e protezione dei dati: la tracciabilità dei dati rappresenta la base più importante per la validazione dei dati, nonché nel loro controllo del loro utilizzo, aspetti importanti per la compliance (per esempio per la conformità al GDPR). Non solo, conoscere a fondo il ciclo di vita dei propri dati offre un vantaggio per la protezione dei dati e la privacy (la data lineage permette di verificare in qualsiasi momento la collocazione precisa dei dati).

Guardando le potenzialità della data lineage da una prospettiva ancora più ampia, possiamo dire che rappresenta uno dei tasselli cruciali per modellare una nuova organizzazione “intelligente”, un’azienda data-driven.

 

👇🏻 Su questi temi BNova ha organizzato il live talk 🎙️

“Il caos dei dati: Come Data Governance e Data Virtualization

ci salveranno dall’effetto farfalla 🦋 “

New call-to-action

Approfondimenti da BNext:

Data Fabric: cos’è e quali i vantaggi nel suo utilizzo

Le aziende si trovano ad interfacciarsi con ambienti sempre più diversificati, distribuiti e complessi. Rendere agile la gestione dei dati aziendali diventa quindi una priorità: è necessario guardare oltre le tradizionali pratiche di data management, così da gestire al meglio i costi grazie a soluzioni moderne, come ad esempio il #LogicalDataFabric.

Data Lineage: come assicurarsi qualità e integrità dei dati

Tracciare i dati attraverso il loro ciclo di vita è un tema di valenza strategica. Perché una corretta Data Lineage ci garantisce l’accuratezza e l’integrità dei dati?

Cos’è la Data Quality e le metriche di riferimento

La Data Quality è una misura della condizione dei dati basata su fattori quali accuratezza, completezza, coerenza, affidabilità e se sono aggiornati. La misurazione dei livelli di qualità dei dati può aiutare le organizzazioni a identificare gli errori nei dati che...

Data as a Service: cos’è a cosa serve

I modelli a servizi disponibili in cloud consentono di avere nuove opzioni di utilizzo dei dati, molto più flessibili e scalabili rispetto ai sistemi di gestione tradizionali. È il caso del Data as a Service (Daas), una soluzione strategica in grado di semplificare...

Fare ordine tra i dati: dalla Data Quality alla Data Governance 

Mettere ordine tra i propri dati aziendali è il primo passo, lo step fondamentale per riuscire a governarli e ad utilizzarli nel modo più opportuno e proficuo per l’azienda.   Diamo qui per scontato che i dati aziendali siano “sporchi” per natura, perché...

Data literacy: cos’è e perché è fondamentale per la tua impresa

Al giorno d’oggi si sente spesso parlare di strategie Data Driven e della necessità di avere consapevolezza e controllo dei propri dati; si stima, infatti, che 6 aziende su 10 siano ben consapevoli dell’impellente necessità di ottimizzare la propria conoscenza dei...

Data migration: cos’è, come si esegue e le best practice

La trasformazione digitale ha causato un notevole aumento delle attenzioni dedicate alla Data Governance, la cui qualità è assolutamente determinante per il successo di una strategia di business. Le aziende devono dedicare importanti risorse all’integrazione e alla...

Data Preparation: cos’è e come si esegue la preparazione dei dati

Data Preparation, una disciplina che si occupa di preparare i dati all’utilizzo che si intende effettuare in ambito aziendale. Vediamo cos’è

Cos’è la Data Governance e come implementarla efficacemente

I dati costituiscono la materia prima dell’azienda digitale. Implementarli e gestirli in maniera strategicamente efficiente si rivela fondamentale per successo di un business, ai fini di estrarre il maggior valore possibile in termini di informazioni utili a...

Data Governance: cosa può fare per aiutare il business

La Data Governance è di supporto per aumentare efficacia ed efficienza dei processi, aiuta a gestire la sicurezza, la privacy, ad ottimizzare le risorse e a garantire agli utenti trasparenza ed affidabilità