La data virtualization rappresenta un nuovo approccio all’integrazione dei dati, resosi necessario nell’epoca dei Big Data in cui viviamo, che consente di recuperare ed utilizzare i dati senza spostarli dalla loro origine e indipendentemente dalla loro forma.

Rispetto al tradizionale processo di ETL – Extract, Transform, Load (estrazione, trasformazione, caricamento dei dati in un sistema di sintesi come, ad esempio, data warehouse o data mart) i dati rimangono al loro posto; ciò che consente di fare la data virtualization è accedere in tempo reale al sistema di origine dei dati sfruttando un’unica interfaccia che consente di “collezionare” e vedere tutti i dati da un unico punto, indipendentemente dalla loro forma e da dove essi risiedano realmente (ossia dalla struttura di memorizzazione in cui si trovano i dati originali).

Nello scenario attuale, dominato dai Big Data e dal Cloud e caratterizzato dall’avanzare di Advanced Analytics e Intelligenza Artificiale, l’accesso in tempo reale ai dati diventa un prerequisito fondamentale per le aziende che intendono avere un approccio data-driven, sia strategico che operativo. Le tecnologie tradizionali risultano inadeguate a supportare queste sfide: difficoltà di accesso ai dati, alti costi di gestione e integrazione, necessità di creare copie dei dati per effettuare analisi, ripercussioni critiche sulla Data Governance e rischi di sicurezza e conformità normativa… rappresentano le problematiche più diffuse.

In quest’ottica, la data virtualization deve essere vista come un “elemento facilitatore” della Data Governance, soprattutto se rapportata alla sua efficacia nella data lineage. Vediamo perché.

 

Data Virtualization, cos’è e come funziona

Come accennato, la virtualizzazione dei dati è un approccio moderno per l’integrazione dei dati grazie al quale renderli facilmente ed immediatamente disponibili alle applicazioni ed agli utenti che ne hanno necessità. Si tratta, in partica, di uno strumento tecnologico che funge da “catalizzatore” e “centralizzatore” dei dati, di qualsiasi forma e provenienti da qualsiasi fonte (sistemi legacy, database aziendali, data warehouse ma anche dati provenienti da ambienti Cloud, da sistemi IoT, dai Social Media e dal Web, ecc.), senza necessità di spostarli dalla loro origine per uniformare accessi, formati, semantica e policy di sicurezza.

Vista dalla prospettiva degli utenti (tecnici o di business), la data virtualization è la tecnologia che rende facile l’accesso ai dati per tutti coloro che li “consumano”. Da un punto di vista tecnico, il software per la virtualizzazione dei dati consente di disaccoppiare ciò che vedono e “consumano” gli utenti (attraverso diverse applicazioni, da quelle di business agli analytics) dal “dove” vengono effettivamente reperiti i dati.

Anziché spostare fisicamente i dati in una destinazione tradizionale (database, data warehouse), la data virtualization “porta virtualmente” i dati dove servono, senza spostarli da dove sono, lasciando cioè i dati esattamente dove si trovano in origine.

Quando un’applicazione, o meglio, un utente, chiede accesso ed utilizzo di determinati dati, ciò che avviene è una “comunicazione” con il layer di data virtualization (di fatto, uno strato software posto tra le fonti di dati e le vari applicazioni aziendali) che “scava” tra tutti i dati disponibili, recupera quelli necessari e li distribuisce alle applicazioni ed agli utenti che ne hanno fatto richiesta senza vincoli per questi ultimi (non più vincolati e limitati dalla posizione e dalla provenienza fisica dei dati).

Da un punto di vista di funzionalità, un layer di data virtualization solitamente consente:

astrazione dei dati: il software di virtualizzazione dei dati non contiene alcun dato ma solo metadati necessari per consentire l’accesso alle varie fonti di dati;

accesso trasparente ai dati virtualizzati: nella maggior parte dei casi, solo gli utenti tecnici che devono gestire le tecnologie legate ai dati accedono al layer di data virtualization; gli altri, “interrogano” il sistema di virtualizzazione dei dati in modo del tutto trasparente, attraverso interfacce ed applicazioni (gli utenti nemmeno vedono in che modo una applicazione “recupera” i dati necessari);

collegamento e trasformazione: la data virtualization fa da collettore di dati eterogenei e da “armonizzatore” (trasforma, migliora la qualità, aggrega, normalizza i dati di origine affinché possano essere usati dagli utenti e dalle applicazioni); il software, di fatto, combina set di risultati da più sistemi di origine.

usabilità/distribuzione (delivery dei dati): il sistema di data virtualization pubblica i set di risultati come viste (interfacce utente) o servizi dati che vengono eseguiti su una applicazione quando l’utente ne fa richiesta.

 

Il legame con la data lineage

Fornendo una sorta di “accesso universale” a tutte le fonti di dati fondamentali per un’azienda, la data virtualization introduce un elemento di controllo che va ben oltre le mere potenzialità tecniche del layer software, entra nella sfera della Data Governance ed eleva l’efficacia della data lineage.

Come affrontato nel nostro articolo “La data lineage nella Data Governance aziendale”, la discendenza dei dati (così può essere tradotto, letteralmente, il concetto di data lineage) è ciò che, nell’ambito della Data Governance, consente di “mappare” tutto il ciclo di vita del dato, dalla loro origine fino a quando “escono” dall’azienda, passando per tutti i percorsi di trasformazione ed utilizzo che “subiscono” all’interno dell’organizzazione e dei sistemi aziendali.

Guardando quindi la data virtualization per le sue funzionalità di integrazione, in particolare di “collettore” di dati provenienti da più fonti eterogenee e di “distributore” dei dati verso applicazioni, sistemi ed utenti che li richiedono, queste risultano un elemento centrale di controllo (governance e informazioni) per la data lineage e, a più ampio spettro, per la Data Governance.

La data lineage è ciò che permette di avere una mappatura chiara ed esplicita del ciclo di vita dei dati, evidenziare e comprendere le regole legate ai dati e la trasformazione subita ad ogni movimento, nonché avere una comprensione chiara di chi e come utilizza i dati (con quali applicazioni, per quali processi, con quali output, ecc.). In quest’ottica, la data virtualization rappresenta lo strato tecnologico grazie al quale mappare l’origine dei dati e verificare come vengono utilizzati in azienda, capacità che trovano valore aggiunto anche dal punto di vista della Data Governance, soprattutto in ottica di sicurezza (data protection, privacy ma anche risk management) e di compliance normativa.

 

New call-to-action

Approfondimenti da BNext:

Data Lineage: come assicurarsi qualità e integrità dei dati

Tracciare i dati attraverso il loro ciclo di vita è un tema di valenza strategica. Perché una corretta Data Lineage ci garantisce l’accuratezza e l’integrità dei dati?

Cos’è la Data Quality e le metriche di riferimento

La Data Quality è una misura della condizione dei dati basata su fattori quali accuratezza, completezza, coerenza, affidabilità e se sono aggiornati. La misurazione dei livelli di qualità dei dati può aiutare le organizzazioni a identificare gli errori nei dati che...

Data as a Service: cos’è a cosa serve

I modelli a servizi disponibili in cloud consentono di avere nuove opzioni di utilizzo dei dati, molto più flessibili e scalabili rispetto ai sistemi di gestione tradizionali. È il caso del Data as a Service (Daas), una soluzione strategica in grado di semplificare...

Fare ordine tra i dati: dalla Data Quality alla Data Governance 

Mettere ordine tra i propri dati aziendali è il primo passo, lo step fondamentale per riuscire a governarli e ad utilizzarli nel modo più opportuno e proficuo per l’azienda.   Diamo qui per scontato che i dati aziendali siano “sporchi” per natura, perché...

Data literacy: cos’è e perché è fondamentale per la tua impresa

Al giorno d’oggi si sente spesso parlare di strategie Data Driven e della necessità di avere consapevolezza e controllo dei propri dati; si stima, infatti, che 6 aziende su 10 siano ben consapevoli dell’impellente necessità di ottimizzare la propria conoscenza dei...

Data migration: cos’è, come si esegue e le best practice

La trasformazione digitale ha causato un notevole aumento delle attenzioni dedicate alla Data Governance, la cui qualità è assolutamente determinante per il successo di una strategia di business. Le aziende devono dedicare importanti risorse all’integrazione e alla...

Soluzioni agili per il Data Management: Logical Data Fabric

Le aziende si trovano ad interfacciarsi con ambienti sempre più diversificati, distribuiti e complessi. Rendere agile la gestione dei dati aziendali diventa quindi una priorità: è necessario guardare oltre le tradizionali pratiche di data management, così da gestire al meglio i costi grazie a soluzioni moderne, come ad esempio il #LogicalDataFabric.

Data Preparation: cos’è e come si esegue la preparazione dei dati

Data Preparation, una disciplina che si occupa di preparare i dati all’utilizzo che si intende effettuare in ambito aziendale. Vediamo cos’è

Cos’è la Data Governance e come implementarla efficacemente

I dati costituiscono la materia prima dell’azienda digitale. Implementarli e gestirli in maniera strategicamente efficiente si rivela fondamentale per successo di un business, ai fini di estrarre il maggior valore possibile in termini di informazioni utili a...

Data Governance: cosa può fare per aiutare il business

La Data Governance è di supporto per aumentare efficacia ed efficienza dei processi, aiuta a gestire la sicurezza, la privacy, ad ottimizzare le risorse e a garantire agli utenti trasparenza ed affidabilità