La data virtualization rappresenta un nuovo approccio all’integrazione dei dati, resosi necessario nell’epoca dei Big Data in cui viviamo, che consente di recuperare ed utilizzare i dati senza spostarli dalla loro origine e indipendentemente dalla loro forma.

Rispetto al tradizionale processo di ETL – Extract, Transform, Load (estrazione, trasformazione, caricamento dei dati in un sistema di sintesi come, ad esempio, data warehouse o data mart) i dati rimangono al loro posto; ciò che consente di fare la data virtualization è accedere in tempo reale al sistema di origine dei dati sfruttando un’unica interfaccia che consente di “collezionare” e vedere tutti i dati da un unico punto, indipendentemente dalla loro forma e da dove essi risiedano realmente (ossia dalla struttura di memorizzazione in cui si trovano i dati originali).

Nello scenario attuale, dominato dai Big Data e dal Cloud e caratterizzato dall’avanzare di Advanced Analytics e Intelligenza Artificiale, l’accesso in tempo reale ai dati diventa un prerequisito fondamentale per le aziende che intendono avere un approccio data-driven, sia strategico che operativo. Le tecnologie tradizionali risultano inadeguate a supportare queste sfide: difficoltà di accesso ai dati, alti costi di gestione e integrazione, necessità di creare copie dei dati per effettuare analisi, ripercussioni critiche sulla Data Governance e rischi di sicurezza e conformità normativa… rappresentano le problematiche più diffuse.

In quest’ottica, la data virtualization deve essere vista come un “elemento facilitatore” della Data Governance, soprattutto se rapportata alla sua efficacia nella data lineage. Vediamo perché.

 

Data Virtualization, cos’è e come funziona

Come accennato, la virtualizzazione dei dati è un approccio moderno per l’integrazione dei dati grazie al quale renderli facilmente ed immediatamente disponibili alle applicazioni ed agli utenti che ne hanno necessità. Si tratta, in partica, di uno strumento tecnologico che funge da “catalizzatore” e “centralizzatore” dei dati, di qualsiasi forma e provenienti da qualsiasi fonte (sistemi legacy, database aziendali, data warehouse ma anche dati provenienti da ambienti Cloud, da sistemi IoT, dai Social Media e dal Web, ecc.), senza necessità di spostarli dalla loro origine per uniformare accessi, formati, semantica e policy di sicurezza.

Vista dalla prospettiva degli utenti (tecnici o di business), la data virtualization è la tecnologia che rende facile l’accesso ai dati per tutti coloro che li “consumano”. Da un punto di vista tecnico, il software per la virtualizzazione dei dati consente di disaccoppiare ciò che vedono e “consumano” gli utenti (attraverso diverse applicazioni, da quelle di business agli analytics) dal “dove” vengono effettivamente reperiti i dati.

Anziché spostare fisicamente i dati in una destinazione tradizionale (database, data warehouse), la data virtualization “porta virtualmente” i dati dove servono, senza spostarli da dove sono, lasciando cioè i dati esattamente dove si trovano in origine.

Quando un’applicazione, o meglio, un utente, chiede accesso ed utilizzo di determinati dati, ciò che avviene è una “comunicazione” con il layer di data virtualization (di fatto, uno strato software posto tra le fonti di dati e le vari applicazioni aziendali) che “scava” tra tutti i dati disponibili, recupera quelli necessari e li distribuisce alle applicazioni ed agli utenti che ne hanno fatto richiesta senza vincoli per questi ultimi (non più vincolati e limitati dalla posizione e dalla provenienza fisica dei dati).

Da un punto di vista di funzionalità, un layer di data virtualization solitamente consente:

astrazione dei dati: il software di virtualizzazione dei dati non contiene alcun dato ma solo metadati necessari per consentire l’accesso alle varie fonti di dati;

accesso trasparente ai dati virtualizzati: nella maggior parte dei casi, solo gli utenti tecnici che devono gestire le tecnologie legate ai dati accedono al layer di data virtualization; gli altri, “interrogano” il sistema di virtualizzazione dei dati in modo del tutto trasparente, attraverso interfacce ed applicazioni (gli utenti nemmeno vedono in che modo una applicazione “recupera” i dati necessari);

collegamento e trasformazione: la data virtualization fa da collettore di dati eterogenei e da “armonizzatore” (trasforma, migliora la qualità, aggrega, normalizza i dati di origine affinché possano essere usati dagli utenti e dalle applicazioni); il software, di fatto, combina set di risultati da più sistemi di origine.

usabilità/distribuzione (delivery dei dati): il sistema di data virtualization pubblica i set di risultati come viste (interfacce utente) o servizi dati che vengono eseguiti su una applicazione quando l’utente ne fa richiesta.

 

Il legame con la data lineage

Fornendo una sorta di “accesso universale” a tutte le fonti di dati fondamentali per un’azienda, la data virtualization introduce un elemento di controllo che va ben oltre le mere potenzialità tecniche del layer software, entra nella sfera della Data Governance ed eleva l’efficacia della data lineage.

Come affrontato nel nostro articolo “La data lineage nella Data Governance aziendale”, la discendenza dei dati (così può essere tradotto, letteralmente, il concetto di data lineage) è ciò che, nell’ambito della Data Governance, consente di “mappare” tutto il ciclo di vita del dato, dalla loro origine fino a quando “escono” dall’azienda, passando per tutti i percorsi di trasformazione ed utilizzo che “subiscono” all’interno dell’organizzazione e dei sistemi aziendali.

Guardando quindi la data virtualization per le sue funzionalità di integrazione, in particolare di “collettore” di dati provenienti da più fonti eterogenee e di “distributore” dei dati verso applicazioni, sistemi ed utenti che li richiedono, queste risultano un elemento centrale di controllo (governance e informazioni) per la data lineage e, a più ampio spettro, per la Data Governance.

La data lineage è ciò che permette di avere una mappatura chiara ed esplicita del ciclo di vita dei dati, evidenziare e comprendere le regole legate ai dati e la trasformazione subita ad ogni movimento, nonché avere una comprensione chiara di chi e come utilizza i dati (con quali applicazioni, per quali processi, con quali output, ecc.). In quest’ottica, la data virtualization rappresenta lo strato tecnologico grazie al quale mappare l’origine dei dati e verificare come vengono utilizzati in azienda, capacità che trovano valore aggiunto anche dal punto di vista della Data Governance, soprattutto in ottica di sicurezza (data protection, privacy ma anche risk management) e di compliance normativa.

 

New call-to-action

Approfondimenti da BNext:

Soluzioni agili per il Data Management: Logical Data Fabric

Le aziende si trovano ad interfacciarsi con ambienti sempre più diversificati, distribuiti e complessi. Rendere agile la gestione dei dati aziendali diventa quindi una priorità: è necessario guardare oltre le tradizionali pratiche di data management, così da gestire al meglio i costi grazie a soluzioni moderne, come ad esempio il #LogicalDataFabric.

Data Preparation: cos’è e come si esegue la preparazione dei dati

Data Preparation, una disciplina che si occupa di preparare i dati all’utilizzo che si intende effettuare in ambito aziendale. Vediamo cos’è

Cos’è la Data Governance e come implementarla efficacemente

I dati costituiscono la materia prima dell’azienda digitale. Implementarli e gestirli in maniera strategicamente efficiente si rivela fondamentale per successo di un business, ai fini di estrarre il maggior valore possibile in termini di informazioni utili a...

denodo: tutto su cloud, con il supporto della Data Virtualization

Il cloud risolve problemi di gestione costi e risorse, ma aggiunge complessità infrastrutturale: è questo che più frena le aziende nella trasformazione digitale. Denodo è la soluzione di Data Virtualization scelta da BNova

Erwin: dalla data governance alla data democratization

Democratizzazione del dato. Ne abbiamo parlato sotto tante declinazioni. Sicuramente una è quella legata alla Data Governance. Lo strumento leader per fare ciò è Erwin che permette di progettare e creare un’esperienza di organizzazione dati a livello aziendale.

Denodo e la data virtualization a supporto di Machine Learning e Data Science

Il Machine Learning e la Data science sono strettamente legate alla data virtualization. denodo è il tool ideale individuato da BNova

Data Governance: governare processi e responsabilità sui dati. Un use case in ambito finance.

Secondo Gartner erwin by Quest è la soluzione di Data Governance leader di mercato. Ecco i vantaggi in un use case in ambito finance

Denodo: Unified Semantic Layer per portare la democrazia e mettere ordine nel caos

Uno strato semantico unico, senza bisogno complessi processi ETL e senza muovere i dati dalla loro origine

Le tecnologie di data virtualization e di metadata management

Le tecnologie di data virtualization e di metadata management sono fondamentali per una data governance efficace in azienda. Ecco perché

La data lineage nella Data Governance aziendale

Data lineage: l’origine dei dati, dove e come si spostano nel tempo. Consente di “mappare” tutto il ciclo di vita del dato.