Nell’era del digitale le organizzazioni collezionano dati provenienti da varie sorgenti, con una quantità ed una varietà che vanno ben oltre ciò per cui i tradizionali database relazionali sono stati concepiti. In particolare, emergono limiti nell’ambito delle applicazioni di data science, business intelligence e business analytics, le attività con cui le aziende generano valore attraverso l’analisi dei dati.

Questo scenario ha prodotto l’esigenza di ulteriori sistemi per rendere più efficienti i processi di data management. La risposta del mercato è arrivata con i data warehouse e i data lake, portandosi dietro una serie di domande ricorrenti circa l’utilizzo dell’uno o dell’altro, soprattutto in relazione al caso specifico.

Data lake e data warehouse, pur con le loro differenti caratteristiche e funzionalità, sono dei repository di dati capaci di andare oltre le tradizionali esigenze di storage, per agevolare i compiti delle applicazioni analitiche.

In termini generici, i due repository sono continuamente alimentati dai sistemi aziendali in grado di generare dati: CRM, ERP, applicazioni finanziarie, applicazioni mobile, sistemi in streaming real time, sistemi di logging, sensoristica dei sistemi IoT e molto altro ancora. Tali dati vengono processati secondo i criteri definiti dagli specialisti aziendali e resi disponibili alle applicazioni analitiche.

Vediamo pertanto cosa sono data lake e data warehouse, in cosa differiscono e quali vantaggi possono oggi ottenere le organizzazioni mediante il loro utilizzo.

Cos’è un data lake?

Il data lake è un repository che archivia dati nel loro formato nativo, senza che intervenga un workflow di preparazione specifico. In altri termini, quando un dato entra nel data lake, la sua sorte non è ancora nota. Non è detto che venga analizzato e non è previsto quale tipo di processo analitico potrà eventualmente coinvolgerlo.

I data lake possono collezionare dati strutturati e non strutturati, come quelli provenienti dalle applicazioni multimediali: immagini, audio, video, ecc. I metadati contenuti nei file consentono query veloci senza la necessità di predisporre uno schema durante la fase di data ingestion. Tale azione viene svolta soltanto nel momento in cui si definisce la tipologia di analisi da effettuare.

I data lake sono disponibili sia come sistemi on-premise che come servizi in cloud e consentono alle aziende di gestire grandi quantità di dati ottimizzando i costi dovuti alla preparazione, svolgendola soltanto quando strettamente necessario.

I vantaggi

Tra i principali benefici che le organizzazioni possono ottenere dai data lake:

  • Risparmio sui costi di storage: la capacità di collezionare qualsiasi tipologia di dato rende i data lake molto competitivi per quanto riguarda l’archiviazione di grandi quantità e varietà di dati, soprattutto rispetto ai database tradizionali e ai data warehouse. Su larga scala, questo approccio all’archiviazione riduce anche il numero e la tipologia di sistemi di storage necessari.
  • Rapidità di ingestione: la capacità di acquisire dati in quasi formato e l’utilizzo di uno schema on-read consente di operare con la maggior velocità possibile, rispetto a sistemi che prevendono schemi on-write e fasi preparatorie.
  • Accessibilità: la struttura molto agile di un data lake semplifica la creazione di copie o sottoinsiemi di dati accessibili da utenti in differenti linee di business. In particolare, operando all’interno di un singolo repository, l’accesso degli utenti può essere controllato in maniera molto più agevole rispetto ad un’architettura dei dati basata su vari sistemi di storage, a tutto vantaggio della sicurezza informatica dell’organizzazione.

Cos’è un data warehouse?

Il data warehouse è un repository in grado di acquisire dati da determinate fonti, archiviarle e preparare dati per uno scopo analitico predefinito. Nella loro concezione più diffusa, i data warehouse sono costruiti sui database relazionali, applicando schemi predefiniti a dati di tipo strutturato.

Su questa base, i data warehouse intervengono con ulteriori azioni di data preparation, mettendo in atto fasi di pulizia e trasformazione per migliorare il livello di data quality, a tutto vantaggio delle applicazioni analitiche.

Il funzionamento di un data warehouse segue il processo ETL (extract, transform and load) che prevede l’acquisizione del dato proveniente da determinate fonti attraverso una serie di connettori, integrati nelle applicazioni. Successivamente il dato viene preparato attraverso varie fasi (data discovery, data cleaning, data transformation, data enrichment, data validation) e caricato sul sistema per essere reso disponibile alle applicazioni analitiche.

Con la diffusione dei servizi di data warehousing in cloud, il processo ETL è stato spesso affiancato dal processo ELT (extract, load and transform) che avvicina le logiche del data warehouse alla pipeline del data lake, posticipando la preparazione del dato in funzione di una specifica esigenza analitica, non per forza nota a priori.

I vantaggi

Tra i principali benefici che le organizzazioni possono ottenere dai data warehouse:

  • Repository centralizzato: tutte le linee di business dell’organizzazione possono disporre di una base di dati unificata, con un’architettura che non esclude, anzi, favorisce l’integrazione dei data mart di cui il singolo reparto può aver bisogno per soddisfare alcune esigenze specifiche.
  • Dati disponibili anche ai non specialisti: la preparazione dei dati li rende facilmente fruibili anche ad alto livello, mediante l’utilizzo di tool di business intelligence dotati di logiche e interfacce self service, utilizzati anche dai manager e dai non specialisti dei dati.
  • Maturità tecnologica: si tratta di sistemi presenti sul mercato da molti anni, che godono di un supporto molto ampio sia per quanto riguarda i vendor che la community di utilizzatori.
  • Manutenzione semplice: grazie alla loro struttura, in cui gran parte del lavoro viene svolto durante la fase di acquisizione, i dati contenuti in un data warehouse solitamente non necessitano di grandi oneri in termini di manutenzione.

Quale soluzione scegliere

L’obiettivo comune di data lake e data warehouse consiste nel facilitare la disponibilità dei dati alle applicazioni analitiche, per supportare e rendere più consapevoli le decisioni di business.

Sulla base delle loro caratteristiche, le organizzazioni tendenzialmente optano per un data warehouse quando devono processare grandi quantità di dati provenienti dai sistemi operativi, già strutturati o facilmente strutturabili secondo le logiche dei database relazionali. Si tratta di informazioni utili a supportare i processi analitici day-by-day garantendo le condizioni di affidabilità e qualità definite dall’organizzazione.

Per contro, si tende a preferire un data lake quando si necessita di collezionare dati di varia natura, che non si limitano alla tipologia strutturata, senza che vi sia per forza la necessità di doverli analizzare. Tale scelta viene svolta soprattutto nella direzione di ridurre i costi di storage senza condizionare negativamente le potenzialità analitiche, che possono intervenire in un secondo momento.

Data la loro differente natura, la questione data lake vs data warehouse non presenta particolari questioni di avversarietà. È infatti possibile scegliere in base ai requisiti funzionali della propria organizzazione, con la consapevolezza che si tratta di sistemi perfettamente complementari tra loro, con funzioni in grado di consentire il dialogo congiunto con le applicazioni analitiche.

L’adozione dell’uno o dell’altro sistema di gestione dei dati, o di entrambi, comporta in ogni caso una serie di considerazioni sia a livello IT che a livello di user experience.

A livello IT un data warehouse comporta, almeno di base, un impegno maggiore da parte degli specialisti, ma a livello di utilizzatori finali risulta molto più accessibile rispetto ad un data lake, soprattutto da parte delle figure non tecniche. Per contro, il data lake comporta minori oneri a livello IT ma accedere ai suoi dati potrebbe risultare particolarmente complesso per i non specialisti.

Sulla base di queste considerazioni, soprattutto grazie alla crescente disponibilità in cloud dei sistemi di gestione dei dati, sono stati concepiti i data lakehouse, sistemi ibridi che combinano la flessibilità dello storage dei data lake con la gestione e le funzionalità di query user-friendly dei data warehouse, con l’obiettivo di mettere a disposizione delle aziende tutti i benefici ottenibili da entrambi i sistemi, limitando al tempo stesso le criticità più note.

ARGOMENTI CORRELATI
Categoria: ANALYTICS

Data Lake: cos’è e quando utilizzarlo per l’archiviazione

La trasformazione digitale sta progressivamente aumentando il volume dei dati con cui le aziende si interfacciano ormai in tempo reale… Leggi tutto

immagine di un pc che mostra un grafico in crescita

Profilazione clienti: cos’è e come farla efficacemente 

[et_pb_section][et_pb_row][et_pb_column type="4_4"][et_pb_text] Quando si chiede ad un imprenditore quali siano gli aspetti del business che vorrebbe migliorare, molto spesso si… Leggi tutto

Analisi predittiva: cos’è, esempi e modelli utilizzati

Le tecniche di analisi predittiva sono presenti da moltissimi anni. Tuttavia, di recente si è assistito ad una considerevole maturazione… Leggi tutto