La data virtualization rappresenta un nuovo approccio all’integrazione dei dati, resosi necessario nell’epoca dei Big Data in cui viviamo, che consente di recuperare ed utilizzare i dati senza spostarli dalla loro origine e indipendentemente dalla loro forma.
Rispetto al tradizionale processo di ETL – Extract, Transform, Load (estrazione, trasformazione, caricamento dei dati in un sistema di sintesi come, ad esempio, data warehouse o data mart) i dati rimangono al loro posto; ciò che consente di fare la data virtualization è accedere in tempo reale al sistema di origine dei dati sfruttando un’unica interfaccia che consente di “collezionare” e vedere tutti i dati da un unico punto, indipendentemente dalla loro forma e da dove essi risiedano realmente (ossia dalla struttura di memorizzazione in cui si trovano i dati originali).
Nello scenario attuale, dominato dai Big Data e dal Cloud e caratterizzato dall’avanzare di Advanced Analytics e Intelligenza Artificiale, l’accesso in tempo reale ai dati diventa un prerequisito fondamentale per le aziende che intendono avere un approccio data-driven, sia strategico che operativo. Le tecnologie tradizionali risultano inadeguate a supportare queste sfide: difficoltà di accesso ai dati, alti costi di gestione e integrazione, necessità di creare copie dei dati per effettuare analisi, ripercussioni critiche sulla Data Governance e rischi di sicurezza e conformità normativa… rappresentano le problematiche più diffuse.
In quest’ottica, la data virtualization deve essere vista come un “elemento facilitatore” della Data Governance, soprattutto se rapportata alla sua efficacia nella data lineage. Vediamo perché.
Data Virtualization, cos’è e come funziona
Come accennato, la virtualizzazione dei dati è un approccio moderno per l’integrazione dei dati grazie al quale renderli facilmente ed immediatamente disponibili alle applicazioni ed agli utenti che ne hanno necessità. Si tratta, in partica, di uno strumento tecnologico che funge da “catalizzatore” e “centralizzatore” dei dati, di qualsiasi forma e provenienti da qualsiasi fonte (sistemi legacy, database aziendali, data warehouse ma anche dati provenienti da ambienti Cloud, da sistemi IoT, dai Social Media e dal Web, ecc.), senza necessità di spostarli dalla loro origine per uniformare accessi, formati, semantica e policy di sicurezza.
Vista dalla prospettiva degli utenti (tecnici o di business), la data virtualization è la tecnologia che rende facile l’accesso ai dati per tutti coloro che li “consumano”. Da un punto di vista tecnico, il software per la virtualizzazione dei dati consente di disaccoppiare ciò che vedono e “consumano” gli utenti (attraverso diverse applicazioni, da quelle di business agli analytics) dal “dove” vengono effettivamente reperiti i dati.
Anziché spostare fisicamente i dati in una destinazione tradizionale (database, data warehouse), la data virtualization “porta virtualmente” i dati dove servono, senza spostarli da dove sono, lasciando cioè i dati esattamente dove si trovano in origine.
Quando un’applicazione, o meglio, un utente, chiede accesso ed utilizzo di determinati dati, ciò che avviene è una “comunicazione” con il layer di data virtualization (di fatto, uno strato software posto tra le fonti di dati e le vari applicazioni aziendali) che “scava” tra tutti i dati disponibili, recupera quelli necessari e li distribuisce alle applicazioni ed agli utenti che ne hanno fatto richiesta senza vincoli per questi ultimi (non più vincolati e limitati dalla posizione e dalla provenienza fisica dei dati).
Da un punto di vista di funzionalità, un layer di data virtualization solitamente consente:
astrazione dei dati: il software di virtualizzazione dei dati non contiene alcun dato ma solo metadati necessari per consentire l’accesso alle varie fonti di dati;
accesso trasparente ai dati virtualizzati: nella maggior parte dei casi, solo gli utenti tecnici che devono gestire le tecnologie legate ai dati accedono al layer di data virtualization; gli altri, “interrogano” il sistema di virtualizzazione dei dati in modo del tutto trasparente, attraverso interfacce ed applicazioni (gli utenti nemmeno vedono in che modo una applicazione “recupera” i dati necessari);
collegamento e trasformazione: la data virtualization fa da collettore di dati eterogenei e da “armonizzatore” (trasforma, migliora la qualità, aggrega, normalizza i dati di origine affinché possano essere usati dagli utenti e dalle applicazioni); il software, di fatto, combina set di risultati da più sistemi di origine.
usabilità/distribuzione (delivery dei dati): il sistema di data virtualization pubblica i set di risultati come viste (interfacce utente) o servizi dati che vengono eseguiti su una applicazione quando l’utente ne fa richiesta.
Il legame con la data lineage
Fornendo una sorta di “accesso universale” a tutte le fonti di dati fondamentali per un’azienda, la data virtualization introduce un elemento di controllo che va ben oltre le mere potenzialità tecniche del layer software, entra nella sfera della Data Governance ed eleva l’efficacia della data lineage.
Come affrontato nel nostro articolo “La data lineage nella Data Governance aziendale”, la discendenza dei dati (così può essere tradotto, letteralmente, il concetto di data lineage) è ciò che, nell’ambito della Data Governance, consente di “mappare” tutto il ciclo di vita del dato, dalla loro origine fino a quando “escono” dall’azienda, passando per tutti i percorsi di trasformazione ed utilizzo che “subiscono” all’interno dell’organizzazione e dei sistemi aziendali.
Guardando quindi la data virtualization per le sue funzionalità di integrazione, in particolare di “collettore” di dati provenienti da più fonti eterogenee e di “distributore” dei dati verso applicazioni, sistemi ed utenti che li richiedono, queste risultano un elemento centrale di controllo (governance e informazioni) per la data lineage e, a più ampio spettro, per la Data Governance.
La data lineage è ciò che permette di avere una mappatura chiara ed esplicita del ciclo di vita dei dati, evidenziare e comprendere le regole legate ai dati e la trasformazione subita ad ogni movimento, nonché avere una comprensione chiara di chi e come utilizza i dati (con quali applicazioni, per quali processi, con quali output, ecc.). In quest’ottica, la data virtualization rappresenta lo strato tecnologico grazie al quale mappare l’origine dei dati e verificare come vengono utilizzati in azienda, capacità che trovano valore aggiunto anche dal punto di vista della Data Governance, soprattutto in ottica di sicurezza (data protection, privacy ma anche risk management) e di compliance normativa.