La trasformazione digitale ha reso i dati la principale risorsa da cui estrarre valore in funzione dei vari processi di business. Affinché ciò avvenga, è necessario analizzarli secondo varie modalità, attraverso forme di interazione che si fanno via via sempre più complesse ed articolate.

In questo contesto, diventa sempre più centrale il ruolo strategico ed operativo che viene assunto dai sistemi di gestione dei dati. È il caso del data warehouse, quel magazzino di dati che rappresenta una tecnologia che pare destinata ad una seconda, se non addirittura ad una terza giovinezza, grazie alla modernizzazione offerta dalle sue implementazioni in cloud.

Cogliamo pertanto l’occasione per redigere una panoramica relativa al data warehouse, utile a cogliere in cosa consiste nella sua accezione tradizionale, quali siano le sue caratteristiche funzionali e in cosa differisce rispetto ad altri popolari sistemi di gestione dei dati, come i database e i data lake.

Immagine promozionale per il whitepaper su Data Driven

Cosa si intende per Data Warehouse

Nella sua definizione più semplice, un data warehouse potrebbe essere descritto quale un sistema centralizzato di dati, da analizzare in funzione di decisioni più informate. In buona sostanza, uno strumento utile a supportare le operazioni di Business Intelligence. Per dirla con William Inmon, ossia colui che oltre ad averli definiti, i data warehouse li ha addirittura inventati, stiamo parlando di un “subject oriented, nonvolatile, integrated, time variant collection of data in support of management’s decisions”.

Nel corso degli anni si sono susseguite moltissime definizioni di data warehouse, anche per via della sua varia connotazione funzionale. La costante che le accomuna risiede nel focalizzare l’attenzione su un sistema di dati concepito per essere interrogato dalle applicazioni che grazie all’analisi del dato stesso estraggono un valore informativo utile a supportare e migliorare i processi e le decisioni aziendali.

Prima di addentrarci nelle caratteristiche del data warehouse, possiamo trarre spunto dalle definizioni stesse per identificare i vantaggi fondamentali che derivano dalla sua implementazione aziendale:

  • Consolidamento dei dati da molteplici fonti: i data warehouse possono acquisire dati di differente tipologia da moltissime fonti, che spaziano dai sistemi IoT fino ai gestionali d’azienda, come i sistemi ERP e CRM, senza trascurare le interazioni tra gli utenti e canali di comunicazioni aziendali. Tale funzionalità consente pertanto di acquisire ed archiviare il dato su un sistema di storage e di renderlo disponibile a qualsiasi operazione di analisi dovesse rivelarsi utile secondo le esigenze aziendali;
  • Analisi storica dei dati: la logica incrementale dei data warehouse consente di archiviare in maniera strutturata e non varie fonti informative, utili nel caso in cui si vogliano intraprendere analisi descrittive sul lungo periodo. Il fatto di disporre di dati correnti e dati storici costituisce una base fondamentale per implementare con successo una strategia di business intelligence realmente rappresentativa dello stato dei processi aziendali;
  • Incremento della data quality: il dato inserito nel data warehouse viene preparato con adeguati strumenti e metodologie, utili a renderlo disponibile con un elevato livello di accessibilità;
  • Query più veloci ed efficienti: la disponibilità dei dati strutturati nei sistemi di data warehouse semplifica notevolmente le query, soprattutto quando si effettuano nei confronti di grandi quantità di dati;
  • Decisioni migliori: il contesto precedentemente descritto consente di effettuare operazioni di business intelligence sulla base di un dato qualitativamente efficiente, da cui si presume la possibilità di ottenere report e insight molto rappresentativi degli eventi oggetto di sintesi descrittiva. Tali strumenti risultano fondamentali ai fini del supporto decisionale, che costituisce, come abbiamo visto, l’obiettivo chiave delle operazioni sui dati, laddove si esprime pienamente il valore aggiunto dell’attività analitica.
  • Integrazione Big Data Analytics e Machine Learning: i data warehouse risultano funzionali anche alle attività analitiche di più recente evoluzione, soprattutto nel caso dei sistemi in cloud, che possono contare sul supporto di tecnologie emergenti, come nel caso dell’intelligenza artificiale. Tali vantaggi sono caratteristici dei data warehouse moderni.
  • Logiche cloud native: i data warehouse moderni consentono di avvalersi di tali sistemi come servizio in cloud, con tutti i vantaggi tipici di tale ambiente, soprattutto in funzione della scalabilità dei sistemi di storage e delle applicazioni utilizzate. Tali vantaggi sono pertanto caratteristici dei data warehouse moderni, che analizzeremo nella parte conclusiva del presente approfondimento.

Ma da dove arrivano tutti questi dati? Inoltre, come si traducono in report e insight fondamentali per informare nel modo migliore i decisor maker aziendali? Vediamo dunque, a livello concettuale, quali sono i componenti fondamentali che costituiscono l’architettura di un data warehouse.

Componenti e architettura di un Data Warehouse

Un data warehouse è essenzialmente costituito da una serie di componenti fondamentali, che ruotano attorno ad un server di database:

  • Un database server centralizzato: per archiviare e gestire i dati, disponibile on-premises o in cloud. Attualmente sono particolarmente diffusi i database in-memory, che riescono a collocare la gestione dei dati nella memoria RAM dei server o sfruttando tecnologie dedicate, come l’impiego di una memoria persistente, ingegnerizzata ad hoc per svolgere tali operazioni;
  • Un sistema ETL (Extract, Transform, Load): per preparare i dati inseriti nel data warehouse ed altri sistemi specifici per garantire una data quality di livello elevato, prerogativa essenziale per la buona riuscita di qualsiasi processo analitico;
  • Metadati: tutte le informazioni che occorrono per strutturare i dati, ai fini di rendere molto più veloci le query e le operazioni di business intelligence. I metadati servono soprattutto per contestualizzare e dettagliare nel miglior modo possibile tutti i set di dati collezionati all’interno del data warehouse, ai fini di agevolarne la gestione e l’accessibilità;
  • Strumenti di analisi e accesso ai dati: l’evoluzione funzionale dei data warehouse ha visto il passaggio dal semplice storage utile ad organizzare i dati, a sistemi anche molto complessi, con applicazioni in grado di effettuare analisi in maniera molto prossima ai dati. L’integrazione di tali app risulta essenziale nel soddisfare le esigenze funzionali richieste dagli analisti e dai fruitori aziendali, ragion per cui ritroviamo sempre più spesso tool di data visualization in grado di automatizzare la creazione di report e insight a partire dalle analisi effettuate.
Immagine che raffigura un esempio schematico di come funziona il Data Warehouse
Esempio schematico di come funziona il Data Warehouse

Dal punto di vista dell’architettura, i data warehouse sono invece costituiti da veri e propri layer funzionali, di cui almeno tre fondamentali per garantire il flusso end-to-end dal dato archiviato sui dispositivi di storage all’utilizzatore finale:

  • Front-End (layer di analisi): costituito dagli strumenti di analisi, reporting e data mining, ivi compresa l’interfaccia che consente agli utenti di accedere ai dati;
  • Motore di analisi (layer semantico): rappresenta il cuore tecnologico del data warehouse, dove risiedono i server OLAP (OnLine Analytical Processing) e OLTP (OnLine Transactional Processing), capaci di ristrutturare i dati per renderli disponibili ai processi di query e di analisi;
  • Database server (layer dei dati): rappresenta la base dove ha a tutti gli effetti luogo il magazzino dei dati, in stretta correlazione con gli strumenti ETL necessari per prepararli alle successive analisi. Tale livello funzionale è lo stesso in cui, come vedremo, si collocano i data lake, i data mart, i database e tutti i sistemi di gestione dei dati utilizzati in ambito aziendale. Nel layer dei dati trovano luogo anche i metadata e diverse applicazioni. Tale livello può essere anche costituito da server virtuali, che utilizzano tecnologie di data virtualization in grado di consolidare i vari storage, rendendoli disponibili in un unico ambiente, in maniera trasparente per l’utente finale, ai fini di agevolare la governance dei dati.

Dal punto di vista tipologico, è inoltre possibile un’ulteriore categorizzazione dell’architettura di un data warehouse:

  • Data warehouse semplice: condivisione di una struttura di base in cui tutti i dati e i metadati sono archiviati in un unico repository centralizzato, dove convergono i dati provenienti dalle varie fonti e vengono resi disponibili per le analisi;
  • Data warehouse con gestione temporanea: rispetto ai sistemi semplici, sono dotati di un’area appositamente predisposta per la preparazione dei dati, prima del loro inserimento nel repository. Nei sistemi di moderna concezione, i data warehouse effettuano tali operazioni con modalità automatizzate, supportate da interfacce self-service;
  • Data warehouse sandbox: costituiscono delle aree isolate rispetto al resto del sistema, per esplorare i dati e sperimentare metodi di analisi senza ripercussioni sul data warehouse in produzione. Ciò consente di creare delle zone franche in cui non è necessario rispettare tutte le policy stabilite per l’impiego ordinario, favorendo test più veloci ed in generale l’innovazione che deriva dall’analisi dei dati;
  • Data warehouse hub and spoke: è costituito da zone intermedie tra il repository centrale e le applicazioni degli utenti finali, ai fini di rendere più agile l’accesso e la gestione dei dati, che possono essere preparati solo in minima parte rispetto a quanto presente nell’intero sistema. È la logica su cui si basano ad esempio i data mart, che contengono soltanto i dati necessari ad una singola divisione aziendale.

Come creare un Data Warehouse

Senza addentrarci nei meandri tecnologici e puramente ingegneristici della progettazione di un data warehouse, per dare forma ai componenti descritti in precedenza, riteniamo interessante esaminare le logiche progettuali che ne stanno alla base. Potremmo pertanto proporre una sintesi di best practice in materia di data warehousing, che ogni azienda dovrebbe cercare di soddisfare in funzione delle proprie esigenze specifiche.

È infatti opportuno ricordare una volta di più come il data warehouse costituisca sempre e comunque uno strumento, un mezzo, non il fine degli obiettivi di analisi dei dati di un’azienda. Come tale deve pertanto adattarsi funzionalmente alle sue necessità, senza imporre inutili vincoli tecnologici o creare fuorvianti condizionamenti procedurali. Le linee guida per la creazione di un data warehouse potrebbero dunque coincidere con le corrette domande da porsi in questo frangente:

  • Quali sono le informazioni che mi servono? La risposta a questa domanda è nelle esigenze pratiche delle singole linee di business, che è opportuno coinvolgere in maniera attiva affinché manifestino le loro intenzioni a livello analitico;
  • Qual è lo stato attuale della mia gestione dei dati? Sarebbe auspicabile un profondo esame conoscitivo in merito alla governance dei dati, per verificare innanzitutto la conformità con le normative e gli obiettivi di business dell’azienda, per aspetti che vanno dall’archiviazione fino a tutti i processi che utilizzano i dati;
  • Chi deve gestire i dati in azienda? È opportuno formare un team in cui venga rappresentata ogni linee di business, coinvolgendo il manager di riferimento, o una figura equivalente, cui è affidata la responsabilità dei dati e delle applicazioni analitiche. Si tratta di un aspetto organizzativo essenziale nell’ottica di una strategia di miglioramento continuo, utile ad informare il top management delle esigenze di tutte le divisioni aziendali, per disporre di opportuni investimenti utili a migliorare i sistemi di gestione dei dati;
  • Da dove comincio? Dal momento che sarebbe impensabile interrompere la continuità di business per effettuare una migrazione completa, è opportuno individuare uno o più progetti pilota, dove adoperare un flusso di gestione e analisi dei dati end-to-end, capace di coinvolgere le fasi che vanno dalla raccolta del dato fino ai report generati dalle analisi. Tale approccio costituisce un approccio morbido, fattibile ed in grado di abituare progressivamente l’utenza aziendale all’impiego di nuovi sistemi in produzione;
  • A chi mi affido per implementare un data warehouse in azienda? In questo caso, sono possibili varie soluzioni, ma la scelta a minor rischio consiste con ogni probabilità nell’affidarsi ad un system integrator con un solido know how in fatto di dati, che sappia dunque analizzare in maniera scrupolosa il contesto aziendale per proporre le soluzioni ritenute più pertinenti. Fermo restando che sul mercato vi è una grandissima varietà tecnologica, offerta commercialmente dai principali attori nel mercato dell’informatica. Il punto critico non è trovare la tecnologia, ma trovare la tecnologia più adatta alle proprie esigenze. Ciò che distingue un valido system integrator / solution provider è un’ampia conoscenza di casi studio e di situazioni già risolte, da cui deriva quella sensibilità specifica che non è possibile acquisire dalle brochure commerciali dei vari fornitori.

Se tutto sarà andato nel migliore dei modi, l’azienda che si è posta e ha trovato risposte pertinenti a tali quesiti, si ritroverà per le mani un data warehouse pronto per archiviare, esplorare e rendere profittevole un’enorme quantità di dati.

Il reparto IT dovrà a questo punto preoccuparsi di garantire il suo regolarmente funzionamento e la disponibilità continua agli analisti. Le operazioni fondamentali potrebbero coincidere con le seguenti:

  • Mantenimento degli standard di data quality prefissati: è essenziale rispettare gli obiettivi di data management in merito alla struttura, alla preparazione, ai metadati e alla governance stessa dei dati inseriti nel data warehouse, in modo da non venire mai meno rispetto agli standard minimi prefissati;
  • Monitoraggio delle performance: nella regolare attività di utilizzo dei sistemi in funzione dei carichi di lavoro previsti;
  • Monitoraggio della sicurezza: in coerenza con la strategia di data protection e nel rispetto della compliance e delle policy relative alla conservazione e all’utilizzo dei dati, per molti aspetti specifica per ogni realtà aziendale;
  • Mantenimento di una struttura agile: cercare di prediligere una buona modularità del data warehouse, che dia molto di scalare facilmente la disponibilità qualora si verifichino incrementi di attività da parte di una o più linee di business. Tale obiettivo è ad esempio raggiungibile grazie ai data mart, specifici per ogni attività funzionale, oppure all’impiego di servizi gestiti in cloud, come vedremo nel caso della modernizzazione dei data warehouse;
  • Automatizzazione dei processi di gestione: considerando che i data warehouse sono chiamati a gestire una quantità sempre maggiore di dati, sarebbe utile automatizzare il più possibile i processi che ne garantiscono il funzionamento. Ciò è possibile anche avvalendosi di tecniche innovative, come le applicazioni basate sul machine learning, che grazie all’apprendimento autonomo consentono di “conoscere” sempre meglio il data warehouse e di regolarne il comportamento, ai fini di trovare il miglior bilanciamento possibile tra la pura manutenzione e l’efficienza operativa, ottimizzando di conseguenza i costi di gestione.

È evidente come oggi il data management di un’azienda si manifesti una dimensione estremamente varia, sia per quanto riguarda le tecnologie utilizzate che la loro stratificazione nel corso del tempo. Oggi gestire in contemporanea un data warehouse, un data lake o vari database è, come si suol dire gergalmente, la cosa più normale del mondo.

L’interoperabilità tra le fonti di dati a disposizione negli storage risulta dunque fondamentale per garantire una corretta operatività nell’analisi dei dati, un contesto multidisciplinare condiviso da professionalità di varia natura, come gli analisti aziendali, i data scientist, gli sviluppatori, i data engineer, i data architect e moltissimi altri.

La differenza tra Database e Data Warehouse

Anche se i database e i data warehouse sono entrambi sistemi di archiviazione dei dati, essi differiscono soprattutto negli obiettivi per cui sono stati creati. I database nascono per acquisire dati relativi ad una particolare area di business ma non sono espressamente finalizzati allo svolgimento di processi analitici, a differenza dei data warehouse, che sono implementati proprio per rendere disponibili i dati collezionati per le query e le analisi richieste dalle varie applicazioni aziendali.

Definita questa semplice premessa, risulta molto più semplice contestualizzare la notevole consistenza tecnologica che intercorre tra l’architettura di un database e quella di un data warehouse. Con semplici intenzioni divulgative, potremmo concettualizzare il data warehouse come un database dotato di quelle funzioni aggiuntive utili all’analisi dei dati precedentemente preparati da strumenti ETL.

Un database tende ad acquisire dati da un’unica origine e sono ottimizzati per garantire operazioni di lettura frequenti su blocchi dati di piccole dimensioni. Un data warehouse, per contro, nasce per acquisire una varietà di dati da più origini ed è predisposto per operare con grandi quantità di dati, cercando di ridurre il più possibile le operazioni I/O per favorire la velocità del flusso dei dati stessi.

Grazie alle loro qualità intrinseche, che li vedono tendenzialmente agli antipodi, i data warehouse possono a tutti gli effetti essere composti da molti database differenti.

Data Warehouse vs Data Lake, le differenze

Un sistema di gestione dei dati molto ricorrente è il data lake, che si caratterizza come un repository di dati strutturati, semi-strutturati e non strutturati, intesi soprattutto quali dati grezzi, non preparati e provenienti direttamente da varie fonti.

Almeno nella sua concezione originale, il data warehouse non nasce invece per acquisire il dato grezzo, quanto un dato preparato e strutturato, ragion per cui lo vediamo spesso associato all’azione di uno strumento ETL. Quando il dato entra nel warehouse, è formattato e processato per essere ordinato in modo da facilitare il successivo accesso, esattamente come faremmo nel caso in cui dovessimo recarci in un magazzino per prelevare un accessorio. Grazie alle alle informazioni che lo strutturano, possiamo interrogarlo tramite una query, ottenendo dunque le informazioni per localizzarlo correttamente, oltre a sapere già quali sono le sue caratteristiche.

Nel caso del data lake, la pipeline risulta sostanzialmente invertita, in quanto il dato viene acquisito in uno storage a prescindere dalla sua natura, ma viene preparato soltanto in un secondo momento, in funzione dell’esigenza che lo richiede.

Tale differenza archetipale spiega la possibile complementarità tra i due sistemi di gestione dei dati. Il data lake potrebbe essere utilizzato per collezionare una enorme quantità di dati grezzi, di cui probabilmente, nel contesto analitico, ne verrà interrogata soltanto una piccola parte, senza dunque preoccuparci a priori di tutta l’elaborazione. L’acquisizione su un data lake consente ad esempio di avvalersi di grandi capacità di storage a costi mediamente inferiori. Sulla base di una specifica richiesta, potremmo successivamente estrarre il dato dal data lake, pulirlo e trasformarlo per completare il processo di data preparation, in modo da archiviarlo all’interno di un data warehouse, dove sarà disponibile per le successive analisi.

Oggi la principale differenza tra data warehouse e data lake rimane dunque evidente soprattutto a livello tecnologico, per quanto concerne le funzioni di storage e di posizionamento rispetto alla pipeline di analisi dei dati. Compatibilmente con i budget e le competenze a disposizione, combinarne gli effetti consente di sfruttare i relativi pro di entrambe le tecnologie.

Per cercare di comprendere al meglio tale evidenza, non possiamo infatti trascurare come i data warehouse abbiano iniziato il loro lungo periodo di fortuna critica verso la fine degli anni Ottanta, soprattutto come sistemi in grado di archiviare informazioni relative a prodotti e transazioni. Si trattava per lo più di dati testuali strutturati in tabelle. Con il tempo lo scenario si è notevolmente evoluto soprattutto per quanto riguarda le esigenze.

Chi aveva implementato in azienda un sistema di data warehouse ha visto progressivamente crescere il proprio fronte applicativo, iniziando a richiedere funzionalità capaci di archiviare e rendere disponibili anche una serie di dati non strutturati, come immagini, video, contenuti web, oltre ai dati grezzi provenienti dai sistemi IoT, giusto per citarne alcuni tra i più diffusi.

Anche se a livello dialettico ciò potrebbe indurre a pensare che i data warehouse siano diventati una sorta di data lake, in realtà non è così. La differenza a livello analitico continuano a farla le applicazioni che utilizzano i dati e sistemi di gestione, come nel caso dei data warehouse, predisposti per integrare le loro funzionalità, grazie ad un nuovo layer funzionale in un’architettura che rimane invariata nei suoi aspetti concettuali.

Per quanto i data warehouse rimangano un campo d’azione privilegiato per le applicazioni avanzate di business intelligence e di visualizzazione dei dati nell’ambito delle analisi descrittive, i sistemi di moderna concezione integrano anche funzionalità Big Data e Business Analytics, come quelli basati su tecniche di machine learning, capaci di svolgere perfettamente la loro azione anche su dati non tabellari, esattamente come avviene nel caso dei data lake.

In una concezione attuale, oltre che moderna, di data warehouse, sarebbe dunque riduttivo considerare il suo magazzino come un semplice archivio di dati strutturati, se pur preparati di tutto punto. Anzi, proprio la capacità di archiviare varie tipologie di dati è diventata una caratteristica fondamentale per abbattere i cosiddetti data silos, per assicurare agli analisti una miglior visibilità delle fonti cui possono accedere per svolgere le loro operazioni.

Alla luce di queste considerazioni, nella prospettiva sempre più data-driven che si va delineando, possiamo affermare che data warehouse e data lake costituiscono attualmente dei sistemi di gestione dei dati assolutamente complementari nel loro utilizzo.

Esempi e applicazioni

La crescente digitalizzazione dei processi aziendali fa si che tutte le linee di business abbiano quotidianamente a che fare con la gestione e l’elaborazione dei dati, per supportare una serie di esigenze sempre più ampia. La disponibilità dei data warehouse e di altri moderni sistemi di gestione dei dati diventa pertanto critica per garantire le attività di tutto il comparto operativo e gestionale. In tal senso, un ruolo chiave è assicurato dalle integrazioni tra i vari sistemi presenti in azienda.

I data warehouse sono ad esempio predisposti per ricevere dati provenienti dai sistemi ERP e CRM, in modo da consentire quelle che vengono definite le analisi in “near real time” sui flussi di attività generati a livello quotidiano. All’atto pratico, ciò si traduce in report e insight istantanei, resi fruibili grazie a moderni sistemi di data visualization, con dashboard riepilogative e capaci di offrire un quadro complessivo di tutte le attività relativa ad una o più linee di business.

Questo straordinario patrimonio informativo può essere aggiornato in tempo reale, grazie alle funzioni di analytics integrate nelle varie applicazioni. Ciò offre ad esempio ai team di amministrazione, marketing, vendite e assistenza quel valore fondamentale in termini di supporto decisionale che deriva dall’ottenere una miglior visibilità su tutti i processi attivi, anche quelli che non sarebbero tradizionalmente soggetti al loro diretto controllo.

Un esempio di recente implementazione che ci consente di focalizzare al meglio questo concetto è costituito dalla capacità di acquisire dati dai canali di comunicazione sul web di un brand, dove i clienti stabiliscono ogni giorno un numero incredibilmente elevato di interazioni con i prodotti. Tale pratica risulta di fondamentale supporto al team Marketing, in quanto consente di prendere coscienza, in maniera assolutamente specifica e personalizzata, del comportamento di ogni singolo utente, da cui deriva la facoltà di scegliere le azioni migliori per introdurlo nel funnel delle vendite.

Nel caso dei clienti già acquisiti, i dati di interazione consentono al reparto Sales di profilare al meglio ogni attore coinvolto nel processo di vendita, per capire come fidelizzare e rendere più profittevole la base di clientela, così come di scartare i soggetti ritenuti meno interessanti dal punto di vista economico. Tali operazioni richiedono un enorme sforzo analitico, che soltanto i sistemi di analisi automatizzati sono in grado di svolgere, combinando una serie molto ampia di variabili, ottenibili a loro volta grazie a dati strutturati (es. anagrafica clienti, numero acquisti, spesa media, ecc.) e dati non strutturati (interazioni sui social media, ecc.). I data warehouse risultano ovviamente essenziali per organizzare e rendere disponibili questa enorme varietà di dati alle attività di analisi cross disciplinari che vengono ormai svolte in tempo reale nelle aziende.

Un ulteriore esempio di utilizzo di data warehouse è costituito dall’interfaccia con i sistemi IoT industriali (IIoT), soprattutto laddove sia presente un sistema in grado di pre-elaborare i dati che i sensori acquisiscono sugli impianti. I dati vengono resi a loro volta disponibili per analisi di tipo storico-descrittivo, utile a generare report e insight sulla produzione, piuttosto che per analisi di tipo predittivo, sempre più diffuse nell’ambito delle attività legate alla manutenzione e alla supply chain.

L’impiego dei Data Warehouse nel contesto delle attività verticali, o più semplicemente relative alle singole linee di business, ci consentono una rapida riflessione sui data mart. Semplificando molto il concetto, possiamo definire il data mart come una manifestazione parziale del più generico data warehouse, capace di soddisfare le esigenze di una singola unità aziendale (marketing, vendite, assistenza, finanza, ecc.).

Il data mart può quindi essere concepito quale un sistema stand alone, oppure integrato in un data warehouse aziendale. La sua particolare condizione gli consente un livello di complessità inferiore e soprattutto la possibilità di essere decentralizzato, o di riferirsi ad una sola origine di dati, alleggerendo notevolmente il carico di lavoro relativo alla gestione dei dati e alla loro interoperabilità. I sistemi data mart si basano infatti molto spesso su storage dalle dimensioni molto più contenute rispetto ai data warehouse.

Una caratteristica, quest’ultima, che potremmo associare anche ai sistemi ODS (Operational Data Store), progettati per integrare dati da molte fonti, anche al pari di quanto avverrebbe in un data warehouse, con la differenza sostanziale di non richiedere uno storico prolungato, essendo orientati alle operazioni di utilizzo quotidiano. La varietà tecnologica per la gestione dei dati si prospetta pertanto molto articolata e la scelta di un sistema deve configurarsi quale il risultato di attente valutazioni, funzionali alle esigenze dei processi e coerenti con gli obiettivi di business e i budget a disposizione dell’azienda.

Modernizzazione del Data Warehouse: come e perché

Finora abbiamo operato una riflessione in senso ampio sul data warehouse, focalizzata sulla disponibilità del dato in relazione alle esigenze di analisi e dunque alle possibili relazioni e sinergie che si instaurano con gli altri sistemi di gestione dei dati attualmente disponibili. Tale prerogativa costituisce una invariante e rimane nativa nella definizione di un data warehouse.

A variare in maniera sostanziale, dal punto di vista dell’evoluzione intrinseca, è piuttosto la definizione tecnologica dei sistemi di data warehouse, che oggi vediamo sempre più orientati e disponibili nella forma di servizi in cloud. Se i sistemi di data warehouse on-premises sono ben lungi dall’estinguersi, esistono una serie di oggettivi vantaggi e di funzionalità esclusive che spingono gli analisti i responsabili IT delle aziende a sposare le offerte dei sistemi gestiti offerti oggi dalla nuvola.

I tradizionali sistemi on-premises continuano a manifestare una serie di evidenti vantaggi, come la facilità della governance, un perimetro di sicurezza più contenuto e minori tempi di latenza rispetto ai sistemi in cloud, che si dimostrano al tempo stesso molto più agili e scalabili, oltre a garantire la possibilità di utilizzare delle tecnologie che in locale non sarebbero altrimenti disponibili, come i sistemi di analisi avanzata che necessitano delle risorse computazionali del cloud per abilitare le applicazioni basate sul machine learning.

Le ragioni per cui sentiamo sempre più di frequente parlare di modernizzazione dei data warehouse vanno dunque oltre il semplice fattore tecnologico. Oggi le aziende stanno diventando sempre più data-driven e tale aspetto sta penetrando con decisione all’interno dei modelli organizzativi. La necessità di ridefinire i processi comporta una generale modernizzazione dell’IT, che interessa tutti i componenti fondamentali di un’infrastruttura e delle applicazioni stesse. In questo contesto, i sistemi deputati all’archiviazione e alla gestione dei dati non costituiscono di certo un’eccezione.

Si tratta di un naturale ricambio generazionale. Del resto, la concezione dei data warehouse tradizionali risale ad un’epoca in cui la diffusione di internet non era rilevante e non esistevano nemmeno i sistemi mobile, i sistemi IoT e tantissimi standard tecnologici che oggi tendiamo a dare per scontati, tale è la loro diffusione. Compatibilmente con la possibilità di portare il dato all’esterno del data center aziendale, un DWaaS (Data Warehouse as a Service) in cloud offre una serie di possibilità, di fatto precluse ai sistemi tradizionali:

  • Rapidità di implementazione IT: il provisioning delle risorse è garantito da un semplice pannello di controllo, attraverso cui abilitare la potenza computazionale e lo storage necessario a soddisfare i carichi di lavoro richiesti. L’interfaccia dei servizi gestiti in cloud ha una logica self-service che consente di concentrarsi esclusivamente sulle applicazioni, senza doversi preoccupare dei sistemi necessari per eseguirle;
  • Riduzione dei costi di struttura: l’infrastruttura IT è gestita dal CSP (Cloud Service Provider) direttamente nei data center in cloud, per cui non è più necessario internalizzare alcun sistema hardware-software e, di conseguenza, le risorse IT necessarie per configurarli e mantenerli;
  • Scalabilità e controllo dei costi di servizio: possibilità di acquisire ulteriori risorse in cloud qualora l’aumento dei carichi di lavoro lo rendesse necessario e di cessare il loro utilizzo nel caso di una contrazione. In ogni caso un DWaaS consente di pagare soltanto per ciò che si utilizza, garantendo dunque un maggior controllo dei costi, con la possibilità di ricaricarli direttamente sui singoli progetti;
  • Backup e Disaster Recovery: automatizzazione dei principali processi legati alla sicurezza dei dati, con la possibilità di ripristinare i servizi in caso di incidenti.
  • Compliance: i CSP garantiscono da contratto il rispetto delle normative GDPR, anche se un’incognita rimane costituita dal fatto che non tutti i dati possono essere portati al di fuori del perimetro aziendale. In tal caso si potrebbe auspicare l’impiego di un’infrastruttura dei dati di natura ibrida.
  • Semplicità di gestione e programmazione: le logiche self-service e l’elevata automatizzazione dei DWaaS consentono agli utenti aziendali generici di svolgere anche una buona parte dei processi analitici di cui necessitano, senza avvalersi di esperti in materia di dati e di sviluppo applicazioni.

Oltre a tali aspetti, vi sono alcuni servizi esclusivi, che possono essere garantiti soltanto grazie ad una implementazione cloud native. I servizi di data warehousing più diffusi in cloud offrono di fatto dei veri e propri ecosistemi data-centric, che oltre al warehouse puro garantiscono l’integrazione nativa con altre tecnologie cloud based, nell’ottica di garantire soluzioni end-to-end dall’acquisizione del dato grezzo al report finale:

  • Data Storage: layer specifici con servizi di object storage per dati strutturati, semi-strutturati e non strutturati, capaci di acquisire dati da moltissime fonti in locale e in multicloud;
  • Data Integration: applicazioni di moderna concezione, in grado di garantire una serie di servizi addizionali ed opzionali sui dati, come l’anonimizzazione, lo scheduling delle attività e l’elaborazione basata sugli eventi pianificati;
  • Tecnologie real time: grazie al supporto di server evoluti con database in-memory, i data warehouse in cloud possono garantire un data processing estremamente veloce per le operazioni in real time;
  • Data Visualization: tool per la reportistica avanzata in grado di acquisire i risultati delle analisi effettuate su sorgenti differenti in locale e in multicloud;
  • Sistemi AI e ML: connessione con applicazioni cloud native di business analytics in grado di processare i big data con sistemi di intelligenza artificiale e tecniche di machine learning.
ARGOMENTI CORRELATI
Categoria: ANALYTICS
Concept per far capire le potenzialità dei Big Data Analytics: esempi di cruscotti che restituiscono informazioni utili

Big Data Analytics: cos’è e perché è importante

Quando si parla di big data analytics ci si riferisce, solitamente, all’analisi avanzata di grandi volumi di dati. Prendere decisioni… Leggi tutto

Concept per far capire il significato del Data Management: uomo che attraverso degli ingranaggi mette in ordine dei flussi intrecciati e caotici

Data Management: cos’è e perché è necessario in azienda

Oggi più che mai i dati digitali rappresentano un vero e proprio asset, un capitale, un importante fattore economico per… Leggi tutto

Colleghi che discutono di fronte al monitor di un pc. Sullo sfondo altri colleghi che parlano

Data lake vs data warehouse: le differenze e quale scegliere

Nell’era del digitale le organizzazioni collezionano dati provenienti da varie sorgenti, con una quantità ed una varietà che vanno ben… Leggi tutto