La Data Quality è una misura della condizione dei dati basata su fattori quali accuratezza, completezza, coerenza, affidabilità e se sono aggiornati. La misurazione dei livelli di qualità dei dati può aiutare le organizzazioni a identificare gli errori nei dati che devono essere risolti e a valutare se i dati nei loro sistemi IT sono idonei a soddisfare lo scopo previsto, di natura sempre più business.

Gli attuali modelli di business, infatti, sono sempre più condizionati dai dati. Oggi, la maggior parte delle aziende utilizza i dati per far fronte alle esigenze primarie di gestione operativa, ma a breve ciò non basterà più. Per poter essere competitivi sarà essenziale poter disporre, in ogni momento, dei dati e delle informazioni corrette che ne derivano, per prendere decisioni, sia di natura strategica sia di natura operativa, più efficaci e tempestive.

In particolare, per rispondere efficacemente a clienti, partner e fornitori, sarà importante accelerare l’acquisizione e l’analisi di Big Data non strutturati, che costituiscono ormai oltre l’80% dei dati aziendali (fonte: Datamation).

immagine promozionale faq data governance

Per poter eseguire analisi in tempo reale è necessario che le tecnologie di Analytics siano integrate nei processi di business e questo obiettivo richiede obbligatoriamente di porre attenzione alla Data Quality.

Cosa si intende per Data Quality

Parlare di Data Quality significa ricondurre la presenza delle inevitabili carenze associate ai dati a un livello accettabile, in relazione all’impatto che queste potrebbero avere sul business. Impatto che, per esempio, potrebbe manifestarsi in una gestione inefficace dei clienti, in modalità di approvvigionamento inadeguate, nella creazione di campagne marketing fuori target o nell’inibire la capacità di sfruttare opportunità di espansione e incremento del fatturato.

La gestione della Data Quality è una componente fondamentale del processo generale di gestione dei dati e gli sforzi per il miglioramento della qualità dei dati sono spesso strettamente legati ai programmi di Data Governance che mirano a garantire che i dati siano formattati e utilizzati in modo coerente in tutta l’organizzazione. La Data Quality rappresenta, quindi, la base per approntare una strategia efficace di Data Governance che, a sua volta, abilita il processo di trasformazione di un’azienda verso un modello data-driven, l’unico in grado di mantenere un’azienda competitiva nel prossimo futuro.

Gli strumenti di Data Quality intervengono sul catalogo dei dati mettendo a disposizione una serie di funzionalità di automazione quali:

  • – profilazione dei dati;
  • – integrazione dei formati;
  • – validazione dei dati;
  • – correzione dei dati;
  • – monitoraggio delle regole associate ai dati;
  • – individuazione e mappatura di dati sensibili ai fini della compliance;
  • – “preview” personalizzati dei dati in base a specifiche richieste;
  • – accesso controllato ai dataset;
  • – report integrati.

Perché occuparsi di Data quality

La pianificazione del business, che in passato era un’attività affrontata periodicamente (su scale temporali pluriennali), deve diventare un processo dinamico, costantemente rivisto e adeguato alle esigenze di un mercato globale rapidamente mutevole.

Pianificare le azioni di business richiede necessariamente una forte attenzione alla qualità dei dati e alla loro modellazione: tanto più i dati enterprise sono contestualizzati, tanto maggiori sono le opportunità di realizzare analisi in grado di produrre azioni che generano un valore di business.

La capacità di migliorare i dati enterprise è proprio la principale differenza tra un catalogo dati moderno e gli archivi di metadati tradizionali.

In sintesi, la Data quality abilita analisi efficaci su dati provenienti da una pluralità di fonti, consentendo a un’azienda di ottimizzare i prodotti, migliorare il servizio ai clienti, incrementare il fatturato, ridurre le spese e prendere decisioni tattiche e strategiche in modo più consapevole.

Perché è così importante

Dati errati o di scarsa qualità possono avere conseguenze significative per le aziende e produrre impatti negativi sull’operatività e la profittabilità del business. I dati di scarsa qualità sono spesso considerati la fonte di problemi operativi, analisi imprecise e strategie aziendali mal concepite o inefficaci. Un bel problema considerando l’importanza strategica che ricoprono oggi i dati per le aziende, dato che da essi dipendono processi core ed i risultati aziendali.

L’importanza della Data Quality arriva dalla sua capacità di abilitare analisi efficaci su dati provenienti da una pluralità di fonti, consentendo a un’azienda di ottimizzare i prodotti, migliorare il servizio ai clienti, incrementare il fatturato, ridurre le spese e prendere decisioni tattiche e strategiche in modo più consapevole.

Le metriche della Data Quality

Poter definire una metrica per misurare la qualità dei dati è una condizione fondamentale per avviare un processo ricorsivo positivo. Le metriche per misurare la qualità dei dati di un sistema o di un’azienda sono definibili correlando gli obiettivi di business con le diverse categorie di errore associabili ai dati, che possono essere ricondotte alle seguenti:

  • – dati mancanti;
  • – dati non corretti;
  • – valori non ragionevoli;
  • – formattazione inconsistente;
  • – entità prive di identificazione univoca;
  • – mancanza di integrità di riferimento tra i valori dei dati all’interno del modello;
  • – previsioni inesatte del numero di collegamenti dei dati;
  • – previsioni inesatte nella presenza di valori di campo basati su altri valori (subtype/supertype);
  • – attributi utilizzati per molteplici significati;
  • – errori di calcolo;
  • – dati che non rientrano nella loro codifica prevista.

Gli strumenti più evoluti di Data Quality permettono anche di predisporre metriche e punteggi definite dall’utente a livello di attributo e tabella e di associare le metriche di Data Quality con punteggi di altri metadati.

Da una prospettiva un po’ più ampia – e più vicina al business – le metriche della Data Quality possono essere ricondotte a questi sei pilastri: precisione, completezza, coerenza, tempestività, unicità, validità. 

1. Precisione

La precisione misura il numero e i tipi di errori in un set di dati. Il monitoraggio di questa metrica risponde alla domanda di base: il comportamento dei dati rientra nei limiti previsti?

In un set di dati possono essere presenti diversi tipi di imprecisioni, tra cui un valore o una stringa anomali, una relazione non coerente tra colonne o righe di un database, inserimenti non accurati di dati che ne rendono difficile (se non impossibile) il loro utilizzo nei sistemi aziendali o per le analisi.

Per misurare la precisione, i dati possono essere confrontati con un set di dati di riferimento. La precisione viene in genere misurata come percentuale di errori rispetto al numero totale di record. Una percentuale più bassa indica una maggiore qualità dei dati.

2. Completezza

È importante che tutti i campi critici in un record siano completamente popolati. Ad esempio, un record cliente senza il codice postale è incompleto. La metrica di completezza misura il numero di record con dati incompleti. Viene monitorato identificando i record con campi vuoti e in genere espresso come percentuale del numero totale di record.

In realtà, in alcuni contesti potrebbe anche essere accettabile che alcuni campi siano vuoti (pensiamo per esempio un campo che richiede un feedback facoltativo di un utente). Un valore null in questo tipo di campo non devrà quindi essere incluso nella metrica che servirà a misurare la completezza dei dati.

3. Coerenza

La coerenza misura come i singoli punti dati estratti da due o più set di dati si sincronizzano tra loro. Se due punti dati sono in conflitto, significa che qualcosa è incoerente.

L’incoerenza può avere una serie di cause, tra cui:

  • dati inseriti in modo errato in una o più fonti;
  • dati inseriti in modo diverso in una o più fonti (ad esempio P.IVA, Piva, PIva…);
  • dati ottenuti in momenti diversi senza verifica di aggiornamento o completamento dei precedenti;
  • struttura/schema diversi tra le origini dati non completamente corrispondenti.

4. Tempestività

La tempestività, a volte chiamata valuta, è una metrica che misura l’età dei dati in un database. È probabile che dati più aggiornati siano più accurati e pertinenti, poiché le informazioni possono cambiare nel tempo. Inoltre, esiste un rischio significativo di moltiplicare gli errori quando i dati meno recenti vengono spostati attraverso la pipeline, poiché tutti i repository di dati intermedi vengono popolati con i risultati dei dati obsoleti.

La tempestività viene monitorata tramite timestamp (ossia la “marca temporale”) sulle origini dati ed aiuta a stabilire una differenza di base tra i dati alla data corrente e quelli antecedenti e quindi riverificare, aggiornare o archiviare i dati precedenti.

5. Unicità

La metrica di unicità tiene traccia dei dati duplicati. In un processo di Data Quality è importante identificare i duplicati e unirli o eliminarli in modo da non avere inutili set di dati replicati.

6. Validità

La validità misura la conformità dei dati agli standard, siano essi definiti da policy interne (per esempio il formato di data con “giorno/mese/anno” e non altri ordini non conformi) oppure da specifiche normative (per esempio nell’ambito della sicurezza e della protezione dei dati).

Come migliorare la qualità dei dati

Per migliorare la qualità dei dati utilizzato in azienda è fondamentale adottare un approccio proattivo al miglioramento continuo. Ecco qualche raccomandazione (non si tratta di un elenco esaustivo, ma aiuta a comprendere su quali basi sviluppare un processo di miglioramento della qualità dei dati).

1. Costruire e promuovere una mentalità data-driven (e di qualità dei dati) nell’organizzazione

Come per tutte le iniziative a livello aziendale, la creazione di una mentalità interna sul miglioramento della qualità dei dati inizia dai vertici dell’azienda. L’obiettivo deve essere integrare la qualità dei dati nel tessuto organizzativo, in modo che non sia vista solo come un’iniziativa del reaprto IT.

2. Coinvolgere i Data Quality Champions e i Data Steward

In relazione al primo passo, i campioni interni di un programma di qualità dei dati possono contribuire a evangelizzarne i vantaggi. I cosiddetti Data Quality Champions dovrebbero provenire da tutti i livelli dell’organizzazione, dalla direzione generale agli utenti operativi: un responsabile dell’inserimento dei dati che è un sostenitore delle best practice di Data Quality avrà un impatto molto maggiore sugli altri utenti finali rispetto al solo Chief Data Officer.

3. Investire in persone con le giuste competenze e nella loro formazione continua

Gli specialisti della qualità dei dati sono difficili da trovare ma è possibile far crescere figure di questo tipo all’interno della propria organizzazione IT dando loro il tempo e la formazione necessari per apprendere la scienza della qualità dei dati e i compiti e le tecniche che essa comporta.

4. Definire quali metriche utilizzare per misurare la qualità dei dati

Esistono diverse dimensioni che possono essere utilizzate per misurare i livelli di qualità dei dati. Gli specialisti della Data Quality e gli altri addetti IT devono collaborare con i responsabili aziendali e gli utenti per identificare e documentare le metriche da utilizzare durante il processo di analisi dei set di dati e di valutazione dei progressi delle iniziative di miglioramento della qualità dei dati.

5. Identificare ed eliminare i silos di dati

Un silo di dati è un archivio di dati che non viene condiviso in modo efficace all’interno di un’organizzazione e che potrebbe non essere gestito correttamente. Sebbene alcune entità sappiano dell’esistenza dei dati, altri reparti, unità aziendali o gruppi di lavoro potrebbero non conoscerne la disponibilità e non essere quindi in grado di accedervi e utilizzarli (anche il team IT potrebbe non essere a conoscenza di dati in silo custoditi dalle Line of Business, accade più spesso di quanto si possa immaginare).

Data Quality vs. Data Integrity

La qualità e l’integrità dei dati sono talvolta indicate in modo intercambiabile; spesso la Data Integrity viene considerata come un aspetto dell’accuratezza dei dati nel processo di Data QUality.

Non è del tutto errata come visione, tuttavia, l’integrità dei dati deve essere vista come un concetto più ampio che combina la qualità dei dati, la Data Governance e persino i meccanismi di protezione dei dati (Data Protection) necessari ad affrontare l’accuratezza, la coerenza e la sicurezza dei dati nel loro insieme.

In questa visione più ampia, l’integrità dei dati si concentra sull’integrità sia dal punto di vista logico che fisico. L’integrità logica include misure di qualità dei dati e attributi di database come l’integrità referenziale, che garantisce che gli elementi di dati correlati in diverse tabelle di database siano validi. L’integrità fisica implica controlli di accesso e altre misure di sicurezza progettate per impedire che i dati vengano modificati o danneggiati da utenti non autorizzati, nonché protezioni di backup e ripristino di emergenza.

Le sfide emergenti nell’ambito della Data Quality

La natura dei problemi di qualità dei dati si sta ampliando man mano che i sistemi di Big Data e Advanced Analytics evolvono e maturano. Sempre più spesso, i gestori di dati devono anche concentrarsi sulla qualità dei dati non strutturati e semi-strutturati, come testo, record di flussi di click su Internet, dati dei sensori e registri di rete, di sistema e di applicazione, dati prodotti dai media online e dati provenienti dai contesti IoT.

L’uso crescente dell’intelligenza artificiale (AI) e delle applicazioni di apprendimento automatico (Machine Learning) complica ulteriormente il processo di Data Quality nelle organizzazioni, così come l’adozione di piattaforme di streaming di dati in tempo reale che incanalano grandi volumi di dati nei sistemi aziendali in modo continuo. Inoltre, la qualità dei dati oggi deve essere gestita in una combinazione di sistemi on-premises e cloud (spesso in ambienti ibridi e multicloud).

Le sfide nell’ambito della Data Quality si stanno complicando anche a causa dell’attuazione di nuove leggi sulla privacy e sulla protezione dei dati, in particolare il regolamento generale sulla protezione dei dati dell’Unione europea (GDPR) e il California Consumer Privacy Act (CCPA), solo per citare i due “famosi” ma vi sono numerosi altri impianti normativi specifici per settore, per esempio nel mondo Finance, Pharma, Retail.

In definitiva, il processo di Data Quality non può mai considerarsi concluso, deve essere governato con un approccio al miglioramento continuo basato su analisi, verifiche, misurazioni, valutazioni, azioni.

New call-to-action
ARGOMENTI CORRELATI
Categoria: DATA GOVERNANCE
Logical Data Fabric - concept grafico per richiamare la rete di interconnessione tra dati creata con il logical data fabric. Immagine che raffigura una rete e le connessioni tra nodi che rappresentano i dati e gli strumenti

Data Fabric: cos’è e quali i vantaggi nel suo utilizzo

Le aziende si trovano ad interfacciarsi con ambienti sempre più diversificati, distribuiti e complessi. Rendere… Leggi tutto

Due persone osservano il monitor di un pc con sullo sfondo altre due persone che osservano anche loro un monitor

Data Lineage: come assicurarsi qualità e integrità dei dati

Tracciare i dati attraverso il loro ciclo di vita è un tema di valenza strategica.… Leggi tutto

data as a service: cos'è quali vantaggi porta, esempi applicativi e sfide del futuro. Immagine che raffigura un uomo alla scrivania mentre telefona di fronte al computer.

Data as a Service: cos’è a cosa serve

I modelli a servizi disponibili in cloud consentono di avere nuove opzioni di utilizzo dei… Leggi tutto