Data lineage si traduce letteralmente in “discendenza dei dati” ed include la loro origine, tutto ciò che accade ad essi, dove e come si spostano nel tempo. In altre parole, è ciò che, nell’ambito della Data Governance, consente di “mappare” (anche attraverso strumenti e funzionalità di data visualization) tutto il ciclo di vita del dato: indica da dove provengono i dati, dove stanno “andando” (verso quali applicazioni o sistemi ed a supporto di quali processi), se e quali trasformazioni subiscono all’interno del patrimonio informativo aziendale, dove e quando “escono” dall’azienda.

Oggi le aziende sono chiamate ad avere una strategia di Data Governance efficace perché sempre più processi operativi, e ancor di più i processi decisionali, necessitano dei dati e della loro analisi. La varietà di fonti di dati, ormai pressoché illimitata, pone però nuove sfide in termini di gestione: la necessità di avere a disposizione dati pronti, integri, corretti, consistenti, di qualità è allo stesso tempo prerequisito ormai imprescindibile per prendere decisioni oggettive, efficaci e consapevoli, non solo in termini strategici ma anche per la gestione operativa. In quest’ottica la data lineage può essere vista come un prerequisito della Data Quality (ma attenzione a non confondere le due cose).

 

Cos’è la data lineage, l’albero genealogico dei dati

Data lineage è il termine comune con il quale, nell’ambito della Data Science, si identifica la derivazione e la tracciabilità dei dati. Il termine lineage (lignaggio) fa riferimento ad un albero genealogico o ad una linea di discendenza da un antenato.

Applicato ai dati, il lignaggio fa riferimento alla discendenza dei dati e comprende due aspetti principali:

  • 🍃 l’origine, ossia la provenienti dei dati;
  • 🍃 il cambiamento, cioè come, dove e perché i dati sono cambiati.

Una prima definizione di data lineage potrebbe dunque essere: il viaggio che i dati compiono dalla loro origine attraverso tutte le trasformazioni nel tempo. Ciò che consente, in ambito IT, di descrivere e tracciare l’origine, il movimento, le caratteristiche e la qualità di un determinato set di dati.

La comprensione e la tracciabilità del cambiamento nei dati implica una capacità di governance e di mappatura della catena dei dati, di tutte le “regole” che sono state applicate ai dati mentre si muovono e si trasformano lungo la catena di dati e degli effetti che tali regole hanno avuto sui dati (cioè come hanno modificato i dati).

Origine e cambiamento/movimento sono i due pilastri portanti della data lineage perché consentono di tenere traccia di tutte le caratteristiche dei dati durante il loro ciclo di vita. Qualsiasi dato, o set di dati, che cambia mentre si muove all’interno della catena di dati, ad ogni passaggio potrebbe perdere alcune delle sue caratteristiche precedenti ma anche acquisirne di nuove durante “l’evoluzione”. Ecco perché è di fondamentale importanza tenerne traccia in modo chiaro e trasparente.

 

A cosa serve, in pratica, la data lineage

Come accennato, la discendenza dei dati è importante per la misurazione della qualità dei dati e la Data Governance. Tanto più è approfondita la conoscenza del dato, dalla sua origine e lungo tutti i suoi spostamenti e trasformazioni, tanto più risulterà efficace la loro qualità e governance.

Questo ci fa capire a cosa serve, davvero, la data lineage nelle aziende e qual è il suo legame con la Data Governance. Estremizzando un po’ con le semplificazioni, possiamo dire che la tracciabilità e la mappatura della discendenza dei dati serve a:

  • 📌 capire in modo chiaro da dove provengono i dati;
  • 📌 comprendere come i dati vengono utilizzati in azienda (in quali applicazioni, per quali processi, ecc.);
  • 📌 tracciare come si muovono i dati all’interno dei sistemi informativi aziendali;
  • 📌 visualizzare, tracciare e capire in che modo, dove e quando i dati subiscono trasformazioni e comprendere quali sono e che impatti generano;
  • 📌 scovare le interdipendenze tra dati e sistemi aziendali.

 

Da un punto di vista più tecnico, IT, la data lineage rappresenta uno degli asset più importanti nell’ambito del metadata management perché si realizza partendo dalla conoscenza e controllo dei metadati (quelli che rappresentano, di fatto, le informazioni sui dati e che, quindi, permettono di estrarre ciò che serve alla data lienage stessa: le informazioni sull’origine, il movimento ed il cambiamento dei dati).

I metadati che rendono possibile la data lineage, solitamente, sono sia di natura tecnica (metadati tecnici o operativi) sia legati all’organizzazione aziendale (metadati di business). I primi descrivono tecnicamente la natura dei dati (struttura, formato, dominio, campi, accessibilità, ecc.), i secondi invece sono più legati ad una terminologia di carattere più business e consentono di identificare il contesto aziendale o le regole di business cui si riferiscono i dati (processo di business, normativa di riferimento, livello di sicurezza, policy aziendali, ecc.).

Lavorare su entrambe le tipologie di metadati, soprattutto dalla prospettiva della data lineage, consente di creare e mappare un collegamento reale tra business ed operations tracciando in modo chiaro dove e come vengono davvero utilizzati i dati.

La gestione dei metadati facilita l’archiviazione e l’utilizzo dei dati all’interno dell’organizzazione, è quindi un elemento fondamentale per la Data Governance. La data lineage aggiunge un importante tassello al tutto perché “sfrutta” i metadati per innalzare il livello della qualità del dato, altro importante pilastro della Data Governance.

 

I benefici generati dalla data lineage

Se volessimo fare un piccolo esercizio di stile, potremmo “incastrare” la data lineage come il mattoncino strettamente correlato al Metadata management, e la Data Quality come l’anello di congiunzione tra la data lineage e la Data Governance.

Rinunciare alla data lineage sarebbe un po’ come giocare al telefono senza fili. Come accennato, però, la discendenza dei dati può offrire numerosi vantaggi sia per l’IT sia per il business, tra i quali:

  • 👉🏻 avere una mappatura chiara ed esplicita del ciclo di vita dei dati
  • 👉🏻 evidenziare e comprendere le regole legate ai dati e la trasformazione subita ad ogni movimento
  • 👉🏻 identificare ridondanze, correlazioni e interdipendenze tra i dati e tra dati e processi
  • 👉🏻 comprensione di chi e come utilizza i dati (con quali applicazioni, per quali processi, con quali output, ecc.), cioè di come si muovono i dati all’interno della propria organizzazione.

Aspetto quest’ultimo molto utile anche per la Compliance normativa.

 

Dalla più ampia prospettiva della Data Governance, la data lineage offre inoltre importanti benefici anche in relazione all’analisi dei dati, nello specifico per:

Data Incident: con la data lineage si riesce a ricostruire l’intero processo di produzione e movimento del dato e quindi individuare con più rapidità e semplicità le “aree” all’interno della catena dove eventualmente avvengono degli errori;

Performance Assessment: grazie alla mappatura dei flussi di dati, con la data lineage si riescono a identificare in modo rapido i “colli di bottiglia” ed eventualmente anche ad evitarli o risolverli in modo estremamente rapido senza causare impatti sulle performance;

Analisi degli impatti: grazie alla mappatura e alla tracciabilità che permettono di identificare correlazioni tra i dati, e questi ultimi ed i processi o le applicazioni, la data lineage diventa l’elemento grazie al quale poter valutare gli impatti che possono generare determinati interventi (per esempio modificando processi in base a nuove regole o in risposta alle normative più attuali oppure introducendo modifiche o aggiornamenti ai sistemi applicativi);

Compliance e protezione dei dati: la tracciabilità dei dati rappresenta la base più importante per la validazione dei dati, nonché nel loro controllo del loro utilizzo, aspetti importanti per la compliance (per esempio per la conformità al GDPR). Non solo, conoscere a fondo il ciclo di vita dei propri dati offre un vantaggio per la protezione dei dati e la privacy (la data lineage permette di verificare in qualsiasi momento la collocazione precisa dei dati).

Guardando le potenzialità della data lineage da una prospettiva ancora più ampia, possiamo dire che rappresenta uno dei tasselli cruciali per modellare una nuova organizzazione “intelligente”, un’azienda data-driven.

 

👇🏻 Su questi temi BNova ha organizzato il live talk 🎙️
Il caos dei dati: Come Data Governance e Data Virtualization
ci salveranno dall’effetto farfalla 🦋

New call-to-action

Approfondimenti da BNext:

Erwin: dalla data governance alla data democratization

Democratizzazione del dato. Ne abbiamo parlato sotto tante declinazioni. Sicuramente una è quella legata alla Data Governance. Lo strumento leader per fare ciò è Erwin che permette di progettare e creare un’esperienza di organizzazione dati a livello aziendale.

Data Governance: governare processi e responsabilità sui dati. Un use case in ambito finance.

Secondo Gartner erwin by Quest è la soluzione di Data Governance leader di mercato. Ecco i vantaggi in un use case in ambito finance

Le tecnologie di data virtualization e di metadata management

Le tecnologie di data virtualization e di metadata management sono fondamentali per una data governance efficace in azienda. Ecco perché

La virtualizzazione dei dati per una efficace data lineage

La data virtualization come tecnologia di integrazione dati. Cos’è e perché è efficace per la data lineage

erwin: l’acquisizione di Quest Software

Nel mondo IT molte sono le joint venture, è il caso di Quest, società software e servizi IT. erwin: l’acquisizione di Quest a dicembre 2020

Data Governance: superare i colli di bottiglia con erwin

La #DataGovernance è qualcosa di più della mera gestione del rischio: la conformità rispetto alle regolamentazioni in merito a queste tematiche è un valore aggiunto, ma la sua applicazione è spesso difficile a causa di una serie di colli di bottiglia che la frenano: data lineage assenti, qualità dei dati non certificata, contesto aziendale non pronto. Con erwin però puoi superarli!

Un framework per la Data Governance 2.0

La aziende hanno bisogno dei dati per prendere decisioni, la loro efficacia dipende anche dalla loro gestione. Scopri il framework per la Data Governance 2.0 per garantire l’accesso e uso dei dati in modo controllato e sicuro da chiunque ne abbia bisogno

​Data Preparation e Data Visualization, i pilastri e le tecnologie per un’adeguata Data Governance

La Data Governance è una vera e propria strategia di valorizzazione del dato stesso, il patrimonio aziendale più prezioso. La Data Preparation e la Data Visualization sono i pilastri fondamentali alla base di un’efficace orchestrazione dei dati

Data Governance: come uscire dal caos e orchestrare al meglio i dati

La Data Governance è un insieme di strategie, processi e policy definite a monte della gestione e dell’utilizzo dei dati con l’obiettivo di gestirli per limitare rischi, prevenire errori, risolvere i problemi legati ai dati e alla loro (spesso) scarsa qualità

BigData4Business Toolkit: la metodologia per una strategia aziendale che incorpori i Big Data

BNova lavora da anni nell’ambito dei dati e dell’innovazione, con un approccio tecnico, ma con uno sguardo sempre rivolto al business per cogliere le esigenze dei clienti anche a livello strategico. Da questo approccio che nasce il nostro Big Data 4 Business Toolkit