La trasformazione digitale sta progressivamente aumentando il volume dei dati con cui le aziende si interfacciano ormai in tempo reale per supportare i loro processi. I dati vengono acquisiti dai sistemi aziendali con grande velocità, con numeriche decisamente elevate, ma non sempre vengono sottoposti all’analisi. Molti di essi potrebbero non essere rilevanti, e prepararli preventivamente equivale, nel caso, ad un inutile dispendio di risorse. 

Immagine promozionale per il whitepaper su Data Driven

Per venire incontro a questa nuova tipologia di esigenze, sempre più diffuse, sono nati i data lake, sistemi di gestione dei dati che consentono un approccio moderno e flessibile ai dati nel contesto aziendale, senza precludere le potenzialità delle applicazioni di business intelligence e di business analytics. 

Cos’è un data lake? 

Il data lake, letteralmente un lago di dati, si riferisce ad un ambiente di archiviazione dei dati nel loro formato nativo, senza l’esigenza di strutturarli preventivamente. 

A differenza di altri sistemi di gestione dei dati, tra cui il data warehouse, un data lake funziona con una logica “on-read”, che prevede la generazione dello schema dei dati nel momento in cui il dato viene selezionato per un processo analitico, non nel momento in cui viene caricato sul sistema di archiviazione. 

A differenza di un classico database relazionale, il data lake è concepito come un generico contenitore di informazioni, in grado di ospitare al proprio interno dati strutturati, non strutturati e semistrutturati. Per citare un esempio ricorrente, un data lake può acquisire, in maniera nativa, anche formati di tipo multimediale (audio, video, ecc.) provenienti da applicazioni streaming, senza la necessità di doverli pre-elaborare. 

Lo schema “on read” su cui si basa il funzionamento dei data lake consente di integrare grandi numeriche di dati, in qualsiasi formato, da qualsiasi tipologia di fonte, su sistemi disponibili on-premise e in cloud, per sfruttare in maniera intrinseca la scalabilità tipica di questo ambiente IT. 

Il termine data lake risale al 2010 e deriva da una fortunata definizione di James Dixon, all’epoca CTO di Pentaho, una software house con sede in California. Dixon alludeva ad una metafora semplice quanto efficace, ossia un repository di dati simile ad un lago, in cui si riversano dati, come l’acqua proveniente da varie sorgenti. Da questo bacino vengono prelevati soltanto i campioni necessari alle varie applicazioni analitiche. 

La portata rivoluzionaria dei data lake nel contesto dei sistemi di gestione dei dati risiede proprio nella capacità di archiviare enormi quantità di informazioni in maniera grezza, consentendo agli utenti la totale libertà di utilizzo in un secondo momento, senza preoccuparsi preventivamente della loro preparazione. 

Quali sono i vantaggi dell’archiviazione su data lake? 

Il principale vantaggio di un data lake nel contesto aziendale risiede nella già citata natura tecnologica, basata sullo schema on-read. Il fatto di poter acquisire il dato in maniera grezza comporta per un’organizzazione evidenti risparmi in termini di tempi e risorse necessarie per le attività di data preparation che caratterizzano il funzionamento di altri sistemi, come i data warehouse, dove i dati vengono caricati soltanto dopo aver subito un processo di trasformazione utile a garantire un’adeguata qualità ai fini analitici. 

Grazie ai data lake, i professionisti dei dati possono accedere, preparare e analizzare i dati in maniera molto più agile e veloce rispetto ai sistemi tradizionali, per soddisfare una varietà di contesti applicativi senza precedenti. Un fattore chiave è dato dalla totale libertà d’azione, in quanto i data lake non vincolano alla conoscenza dell’ambito di utilizzo dei dati nel momento in cui questi vengono acquisiti dalla sorgente. 

La corretta implementazione dei sistemi data lake nella strategia di data management aziendale può generare una serie di significativi vantaggi: 

  • – I data lake, anche integrando le funzioni tipiche di un data warehouse, contribuiscono ad abbattere i data silos, grazie alla capacità di combinare data set provenienti da fonti aziendali differenti all’interno di un solo repository. 
  • – I data scientist e i data engineer possono avvalersi di una visione unificata dei dati presenti sui sistemi aziendali per individuare i più rilevanti ai fini analitici, oltre a semplificare le query. 
  • – Maggior controllo sulla presenza di duplicati e dati eccessivamente ridondanti, semplificando l’intero processo di data management nelle sue fasi operative. 
  • – Possibilità di ridurre il numero di sistemi di gestione dei dati, con un conseguente risparmio di costi e di oneri relativi alla gestione a livello IT, oltre a tutti i vantaggi relativi al poter disporre dei dati in un’unica posizione. 
  • – Maggior facilità per i professionisti dei dati di creare modelli, applicazioni analitiche e query “on the fly”. 
  • – Alcuni dei più diffusi sistemi data lake, come Hadoop e Spark, sono open source e relativamente leggeri in termini di risorse hardware. Tali aspetti, al di là delle ripercussioni di natura economica, consentono approcci decisamente innovativi alla governance dei dati. 
  • – Supporto e compatibilità con vari metodi e tecnologie di analisi dei dati, ivi compresa la modellazione predittiva, il machine learning, l’analisi statistica, il real time analytics, query SQL e data mining. 
  • – Possibilità di gestire ed ottimizzare in varie circostanze i processi di preparazione dei dati in funzione delle esigenze di business, considerando anche le possibili variazioni nel tempo. 

Data lake o data warehouse? 

Data lake e data warehouse sono sistemi con caratteristiche differenti che rispondono a requisiti ed esigenze di business altrettanto diversi tra loro, considerando vari aspetti, che spaziano dalla dimensione aziendale al contesto da cui deriva la tipologia di analisi dei dati da sostenere. 

I data warehouse eccellono nell’analisi di dati strutturati provenienti dai sistemi transazionali e dai sistemi aziendali più diffusi nelle singole linee di business. La preparazione del dato avviene a monte sulla base del processo ETL (extract, transform, load). La struttura e lo schema dei dati sono pertanto definiti preventivamente per ottenere query SQL molto veloci ed efficienti. Un data warehouse consente di avere ordine e qualità anche in presenza di enormi quantità di dati strutturati. 

Un data lake, come osservato nei precedenti paragrafi archivia dati strutturati e non strutturati sia dalle applicazioni LoB che da sorgenti di qualsiasi genere, come le applicazioni mobile, i dispositivi IoT e i canali di comunicazione aziendale (sito internet, social network, touchpoint fisici, ecc.). La struttura del dato e il relativo schema viene definito dopo l’acquisizione nel repository, una volta noti la tipologia dell’analisi da effettuare e il data set da selezionare. 

Nonostante la nativa divergenza in termini di approccio, la crescente disponibilità in cloud dei sistemi di gestione dei dati e delle applicazioni analitiche ha favorito l’ibridazione tra i due modelli, al punto che si è arrivati a parlare apertamente di data lakehouse. Si tratta di configurazioni, almeno a livello logico, in grado di sfruttare le funzionalità e i vantaggi combinati ottenibili da una consapevole integrazione dei data warehouse e dei data lake. 

Si tratta infatti di sistemi che non si escludono, risultando anzi complementari nella loro azione, anche grazie a processi moderni come ELT (extract, load, transform), che variano la sequenza logica ed operativa della preparazione dei dati in favore di una maggior agilità di utilizzo e gestione. 

Non esiste pertanto una risposta univoca alla provocatoria domanda data lake o data warehouse. Si tratta di analizzare in maniera puntuale lo specifico aziendale ed individuare le soluzioni più idonee per soddisfare le strategie di data management. Si tratta di aspetti che portano a suggerire il supporto di una consulenza qualificata sul tema, soprattutto nelle fasi di implementazione iniziale. 

Immagine promozionale per il whitepaper su Data Driven
ARGOMENTI CORRELATI
Categoria: ANALYTICS
Concept di due colleghi che lavorano insieme a dati aziendali

Data catalog: cos’è e perché è necessario

La gestione dei dati all’interno di un’organizzazione comporta oggi una serie di importanti sfide, da cui dipende il successo delle… Leggi tutto

Ragazza che guarda il monitor di un pc osservando numeri e dati

Big data management: come usare e gestire i big data

L’era dei big data ha portato la gestione dei dati (data management) entro scenari di varietà e complessità senza precedenti… Leggi tutto

Concept per far capire le potenzialità dei Big Data Analytics: esempi di cruscotti che restituiscono informazioni utili

Big Data Analytics: cos’è e perché è importante

Quando si parla di big data analytics ci si riferisce, solitamente, all’analisi avanzata di grandi volumi di dati. Prendere decisioni… Leggi tutto