La data virtualization rappresenta un nuovo approccio all’integrazione dei dati, resosi necessario nell’epoca dei Big Data in cui viviamo, che consente di recuperare ed utilizzare i dati senza spostarli dalla loro origine e indipendentemente dalla loro forma.

Rispetto al tradizionale processo di ETL – Extract, Transform, Load (estrazione, trasformazione, caricamento dei dati in un sistema di sintesi come, ad esempio, data warehouse o data mart) i dati rimangono al loro posto; ciò che consente di fare la data virtualization è accedere in tempo reale al sistema di origine dei dati sfruttando un’unica interfaccia che consente di “collezionare” e vedere tutti i dati da un unico punto, indipendentemente dalla loro forma e da dove essi risiedano realmente (ossia dalla struttura di memorizzazione in cui si trovano i dati originali).

Nello scenario attuale, dominato dai Big Data e dal Cloud e caratterizzato dall’avanzare di Advanced Analytics e Intelligenza Artificiale, l’accesso in tempo reale ai dati diventa un prerequisito fondamentale per le aziende che intendono avere un approccio data-driven, sia strategico che operativo. Le tecnologie tradizionali risultano inadeguate a supportare queste sfide: difficoltà di accesso ai dati, alti costi di gestione e integrazione, necessità di creare copie dei dati per effettuare analisi, ripercussioni critiche sulla Data Governance e rischi di sicurezza e conformità normativa… rappresentano le problematiche più diffuse.

In quest’ottica, la data virtualization deve essere vista come un “elemento facilitatore” della Data Governance, soprattutto se rapportata alla sua efficacia nella data lineage. Vediamo perché.

 

Data Virtualization, cos’è e come funziona

Come accennato, la virtualizzazione dei dati è un approccio moderno per l’integrazione dei dati grazie al quale renderli facilmente ed immediatamente disponibili alle applicazioni ed agli utenti che ne hanno necessità. Si tratta, in partica, di uno strumento tecnologico che funge da “catalizzatore” e “centralizzatore” dei dati, di qualsiasi forma e provenienti da qualsiasi fonte (sistemi legacy, database aziendali, data warehouse ma anche dati provenienti da ambienti Cloud, da sistemi IoT, dai Social Media e dal Web, ecc.), senza necessità di spostarli dalla loro origine per uniformare accessi, formati, semantica e policy di sicurezza.

Vista dalla prospettiva degli utenti (tecnici o di business), la data virtualization è la tecnologia che rende facile l’accesso ai dati per tutti coloro che li “consumano”. Da un punto di vista tecnico, il software per la virtualizzazione dei dati consente di disaccoppiare ciò che vedono e “consumano” gli utenti (attraverso diverse applicazioni, da quelle di business agli analytics) dal “dove” vengono effettivamente reperiti i dati.

Anziché spostare fisicamente i dati in una destinazione tradizionale (database, data warehouse), la data virtualization “porta virtualmente” i dati dove servono, senza spostarli da dove sono, lasciando cioè i dati esattamente dove si trovano in origine.

Quando un’applicazione, o meglio, un utente, chiede accesso ed utilizzo di determinati dati, ciò che avviene è una “comunicazione” con il layer di data virtualization (di fatto, uno strato software posto tra le fonti di dati e le vari applicazioni aziendali) che “scava” tra tutti i dati disponibili, recupera quelli necessari e li distribuisce alle applicazioni ed agli utenti che ne hanno fatto richiesta senza vincoli per questi ultimi (non più vincolati e limitati dalla posizione e dalla provenienza fisica dei dati).

Da un punto di vista di funzionalità, un layer di data virtualization solitamente consente:

astrazione dei dati: il software di virtualizzazione dei dati non contiene alcun dato ma solo metadati necessari per consentire l’accesso alle varie fonti di dati;

accesso trasparente ai dati virtualizzati: nella maggior parte dei casi, solo gli utenti tecnici che devono gestire le tecnologie legate ai dati accedono al layer di data virtualization; gli altri, “interrogano” il sistema di virtualizzazione dei dati in modo del tutto trasparente, attraverso interfacce ed applicazioni (gli utenti nemmeno vedono in che modo una applicazione “recupera” i dati necessari);

collegamento e trasformazione: la data virtualization fa da collettore di dati eterogenei e da “armonizzatore” (trasforma, migliora la qualità, aggrega, normalizza i dati di origine affinché possano essere usati dagli utenti e dalle applicazioni); il software, di fatto, combina set di risultati da più sistemi di origine.

usabilità/distribuzione (delivery dei dati): il sistema di data virtualization pubblica i set di risultati come viste (interfacce utente) o servizi dati che vengono eseguiti su una applicazione quando l’utente ne fa richiesta.

 

Il legame con la data lineage

Fornendo una sorta di “accesso universale” a tutte le fonti di dati fondamentali per un’azienda, la data virtualization introduce un elemento di controllo che va ben oltre le mere potenzialità tecniche del layer software, entra nella sfera della Data Governance ed eleva l’efficacia della data lineage.

Come affrontato nel nostro articolo “La data lineage nella Data Governance aziendale”, la discendenza dei dati (così può essere tradotto, letteralmente, il concetto di data lineage) è ciò che, nell’ambito della Data Governance, consente di “mappare” tutto il ciclo di vita del dato, dalla loro origine fino a quando “escono” dall’azienda, passando per tutti i percorsi di trasformazione ed utilizzo che “subiscono” all’interno dell’organizzazione e dei sistemi aziendali.

Guardando quindi la data virtualization per le sue funzionalità di integrazione, in particolare di “collettore” di dati provenienti da più fonti eterogenee e di “distributore” dei dati verso applicazioni, sistemi ed utenti che li richiedono, queste risultano un elemento centrale di controllo (governance e informazioni) per la data lineage e, a più ampio spettro, per la Data Governance.

La data lineage è ciò che permette di avere una mappatura chiara ed esplicita del ciclo di vita dei dati, evidenziare e comprendere le regole legate ai dati e la trasformazione subita ad ogni movimento, nonché avere una comprensione chiara di chi e come utilizza i dati (con quali applicazioni, per quali processi, con quali output, ecc.). In quest’ottica, la data virtualization rappresenta lo strato tecnologico grazie al quale mappare l’origine dei dati e verificare come vengono utilizzati in azienda, capacità che trovano valore aggiunto anche dal punto di vista della Data Governance, soprattutto in ottica di sicurezza (data protection, privacy ma anche risk management) e di compliance normativa.

 

New call-to-action

Approfondimenti da BNext:

Le tecnologie di data virtualization e di metadata management

Le tecnologie di data virtualization e di metadata management sono fondamentali per una data governance efficace in azienda. Ecco perché

La virtualizzazione dei dati per una efficace data lineage

La data virtualization come tecnologia di integrazione dati. Cos’è e perché è efficace per la data lineage

La data lineage nella Data Governance aziendale

Data lineage: l’origine dei dati, dove e come si spostano nel tempo. Consente di “mappare” tutto il ciclo di vita del dato.

denodo: quando la Data Virtualization fa la differenza

La data virtualization è trasversale e può fare la differenza in quelle situazioni in cui i dati sono su diverse fonti da integrare

Data Virtualization: a chi porta i maggiori benefici?

I vantaggi e benefici che la Data Virtualization porta in azienda riguardano tutti i data consumer, ciascuno in modo diverso. Vediamo per le diverse funzioni aziendali, quali sono i benefici più evidenti.

erwin: l’acquisizione di Quest Software

Nel mondo IT molte sono le joint venture, è il caso di Quest, società software e servizi IT. erwin: l’acquisizione di Quest a dicembre 2020

Data Virtualization: le tecniche per mettere a fuoco i tuoi dati

Cos’è la data virtualization? Quali vantaggi porta? Si tratta di un approccio ai dati completamente diverso rispetto a quello tradizionale e permette di superare molte delle limitazioni e problematiche ad oggi presenti. Scopri di più

Data Scientist, chi sono e cosa fanno per aiutare le aziende

Oggi i dati rappresentano uno degli asset più critici ed importanti per un’azienda (e non solo), tant’è che ormai si parla dei dati come del nuovo petrolio nell’economia dell’informazione e della conoscenza. Chi lavora sui dati e con i dati gode di un grande vantaggio. Ma chi sono davvero i Data Scientist e cosa fanno concretamente per aiutare le aziende?

Data Governance: superare i colli di bottiglia con erwin

La #DataGovernance è qualcosa di più della mera gestione del rischio: la conformità rispetto alle regolamentazioni in merito a queste tematiche è un valore aggiunto, ma la sua applicazione è spesso difficile a causa di una serie di colli di bottiglia che la frenano: data lineage assenti, qualità dei dati non certificata, contesto aziendale non pronto. Con erwin però puoi superarli!

Un framework per la Data Governance 2.0

La aziende hanno bisogno dei dati per prendere decisioni, la loro efficacia dipende anche dalla loro gestione. Scopri il framework per la Data Governance 2.0 per garantire l’accesso e uso dei dati in modo controllato e sicuro da chiunque ne abbia bisogno