La gestione dei dati costituisce un fattore essenziale per le aziende digitali. In questo contesto, rientra a pieno titolo la data integration, indispensabile nell’ottica di realizzare un concreto valore aggiunto per il business.

Gli enormi flussi di dati strutturati e non strutturati che vengono acquisiti da un numero crescente di fonti comporta necessariamente l’adozione di strumenti e metodi appositamente studiati per integrarli nei database e negli altri sistemi di gestione, quali data warehouse e data lake, ai fini di renderli disponibili alle applicazioni con il maggior livello di qualità possibile.

Vediamo pertanto in cosa consiste oggi la data integration e perché la sua implementazione nei processi aziendali costituisce un elemento ormai imprescindibile in qualsiasi strategia di gestione dei dati delle realtà data driven.

Immagine promozionale per il whitepaper su Data Driven

Cos’è la data integration

Secondo Wikipedia la data integration si riferisce ai processi da attuare su dati provenienti da diverse sorgenti informative per fornire all’utente una visione unificata di quei dati.

La descrizione enciclopedica trova riscontro nella definizione offerta da Gartner: “La disciplina della data integration comprende le pratiche, le tecniche e gli strumenti per ottenere l’accesso e il delivery dei dati […] per soddisfare i requisiti delle applicazioni e dei processi di business”.

Come propriamente rilevato dall’Osservatorio Big Data & Analytics del Politecnico di Milano, ancor prima di prendere in esame gli aspetti relativi all’integrazione, sarebbe opportuno identificare le varie tipologie di dati con cui le aziende si confrontano ormai in tempo reale.

  • · Dati machine to machine: includono quei dati generati dall’interazione tra dispositivi elettronici. Esempio di fonti che generano dati M2M: sensori, RFID, connessioni wifi;
  • · Dati people to machine: includono i dati generati dall’interazione tra persone e dispositivi elettronici. Esempio di questa categoria sono i dati generati durante le transazioni tipo gli acquisti online;
  • · Dati people to people: sono dati generati dall’interazione tra persone. Ad esempio, i dati generati sui social network dalle attività degli iscritti, sui forum e blog;
  • · Public admin data: sono dati presenti in database pubblici. Includono quelli che vengono chiamati Open Data, ovvero dati disponibili gratuitamente a chiunque per essere analizzati e rivisti secondo il proprio interesse, senza restrizioni di copyright, brevetti o di altri meccanismi di controllo;
  • · Enterprise data: sono i dati presenti all’interno dei data warehouse aziendali. Fanno parte di questa categoria i dati degli ERP o i dati del CRM.

Tale varietà comporta una complessità intrinseca quando si tratta di procedere all’integrazione, riconosciuta quale condizione indispensabile per rendere disponibile una base di dati unificata a supporto delle varie applicazioni aziendali, che si avvalgono sempre più frequentemente dell’apporto della business intelligence e della business analytics.

A cosa serve la Data Integration

Una corretta strategia e implementazione della data integration nella gestione dei dati aziendale è motivata da una serie di fattori tra loro convergenti nell’obiettivo di supportare il business, come evidenziato dai seguenti benefici.

1) Collaborazione e unificazione dei sistemi di gestione dei dati

Le linee di business dell’azienda si ritrovano a dover pianificare e attuare strategie sempre più complesse e articolate, per soddisfare una domanda al tempo stesso frenetica e incredibilmente varia. In questo contesto, è necessario rendere disponibili i dati sia per le applicazioni che riguardano una singola divisione, che operare in un contesto più ampio, per supportare l’operatività dei progetti condivisi tra più linee di business. Si pensi ad esempio agli stakeholder impegnati nel rapporto con i clienti, come gli addetti al marketing, alle vendite e al customer care.

Per soddisfare le esigenze delle varie linee di business, il reparto IT deve garantire la costante disponibilità dei dati in modalità self-service, oltre ad acquisire e caricare puntualmente i nuovi dati generati sui sistemi di gestione. La data integration consente pertanto alle singole divisioni aziendali di diventare maggiormente collaborative, grazie all’impiego di una base di dati unificata.

2) Risparmio di tempi e maggior soddisfazione dei dipendenti

La data integration, se correttamente implementata nei processi aziendali, consente di ottenere sin dalle fasi di acquisizione un adeguato livello di data quality, evitando molte rielaborazioni successive.

Uno dei principali vantaggi, in tal senso, deriva inoltre dall’impiego di strumenti informatici che consentono di automatizzare il processo di visione unificata delle basi di dati, evitando che tali operazioni vengano svolte manualmente dagli operatori, con tempistiche ben più dilatate

L’automatizzazione dei processi di routine consente di liberare risorse umane per attività più strategiche per il business, oltre che maggiormente gratificanti a titolo personale, contribuendo ad incrementare sia la produttività che la competitività dell’intera organizzazione.

3) Riduzione degli errori

Una soluzione di data integration di moderna concezione consente di mettere a disposizione delle applicazioni analitiche la materia prima del loro lavoro: i dati. Ciò avviene grazie al fatto che la data integration prevede la sincronia delle informazioni presenti sui sistemi aziendali, per realizzare report e insight a tutti gli effetti in tempo reale: on demand o ad intervalli regolari.

4) Maggior qualità dei dati per i processi analitici

Le attività di data integration, se implementate in maniera consapevole e svolte in maniera regolare, contribuiscono con costanza al progressivo miglioramento della qualità dei dati di cui l’azienda dispone. Quando i dati in oggetto vengono integrati in un sistema centralizzato, opportuni strumenti sono in grado di rilevare gli eventuali problemi di qualità presenti, consentendo di intervenire con azioni correttive. Una maggior data quality si traduce molto spesso in analisi più accurate da parte delle applicazioni, in particolare quelle basate sull’intelligenza artificiale.

Data integration vs data enrichment

Il glossario dei dati offre varie terminologie e definizioni, che spesso finiscono per causare delle confusioni lessicali o qualche utilizzo improprio. Secondo questa prospettiva è bene evidenziare la differenza tra la data integration, comunemente intesa, e il data enrichment.

A differenza della data integration, che copre tutto lo spettro relativo all’acquisizione, alla preparazione e al caricamento dei dati, il data enrichment si focalizza nello specifico nell’addizione e nell’aggiornamento dei dati all’interno di dataset esistenti. È altrimenti noto come data enhancement, data cleansing e data tagging, quando si intende descrivere in maniera ancor più dettagliata l’operazione coinvolta nel suo contesto applicativo.

L’obiettivo principale del data enrichment coincide con il completamento delle informazioni e la correzione degli errori presenti, intervenendo in maniera puntuale sugli stessi per contribuire al complessivo miglioramento della data quality. Tale approccio consente una maggior accuratezza nei risultati dei procedimenti analitici. Grazie ad insight migliori, le realtà effettivamente data-driven possono ricevere costante supporto decisionale supportando costantemente le decisioni di quelle realtà che possono davvero definirsi data-driven.

Grazie alle sue qualità intrinseche, il data enrichment è molto utilizzato nei processi relativi alla customer experience, per affinare progressivamente il livello di conoscenza sul comportamento dei consumatori, ai fini di individuare strategie e soluzioni per incrementare le conversioni, a fronte di una generale riduzione dei tempi e dei costi necessari per ottenere un determinato obiettivo.

Integrazione dei dati: i diversi approcci

Secondo la classificazione offerta dall’Osservatorio Big Data & Analytics, sarebbero sintetizzabili quattro macro approcci relativi alla data integration.

1) Data silos

Corrisponde all’approccio tradizionale, in cui i dati vengono raccolti da ogni singola linea di business per soddisfare finalità ed utilizzi tra loro non interconnessi. Generalmente ogni divisione aziendale dispone di un proprio storage o di una repository dedicata. Nell’era del digitale, tale approccio evidenzia palesi limiti per il fatto che i data silos non consentono la comunicazione e l’interazione tra le varie divisioni, rendendo alquanto problematica l’implementazione di strategie d’azione congiunte.

2) Data Warehouse (DWH)

Il data warehouse consente di superare le barriere dei data silos, grazie alla formazione di un unico archivio informatico deputato a raccogliere e rendere disponibili i dati acquisiti da varie fonti, sia esterne che relative alle linee di business aziendali. I moderni data warehouse impiegano processi ETL per caricare dati strutturati e, più di recente, anche molti tipi di dati non strutturati.

3) Data Lake (DL)

A differenza del data warehouse, il data lake è un sistema di gestione capace di acquisire i dati nel loro formato nativo, senza la necessità di prepararli o strutturarli preventivamente. In altri termini, l’impiego dei data lake consente di acquisire grandi quantità di dati provenienti da varie fonti, senza preoccuparsi preventivamente del formato necessario per gli utilizzi specifici delle applicazioni. Pur con tutte le eccezioni del caso, si interviene infatti sulla struttura soltanto quando il dato in questione diventa necessario nello specifico di un processo analitico.

4) Modello integrato

È il risultato di una strategia aziendale capace di combinare l’azione di una data warehouse e di un data lake e, più in generale, di differenti sistemi di gestione dei dati. L’aspetto fondamentale è dato alla capacità di integrare tali sistemi per garantire una base informativa univoca, in grado di rispondere alle esigenze applicative senza punti di discontinuità.

Tale approccio, per ovvie ragioni, risulta il più pratico e funzionale per risolvere i problemi pratici ed è una delle principali ragioni per cui ad esempio i data warehouse, da tradizionali sistemi di gestione di dati strutturati, stanno diventando dei sistemi ibridi, capaci di gestire anche dati non strutturati.

I processi per l’integrazione dei dati

Nel corso degli anni abbiamo assistito allo sviluppo di vari strumenti utilizzati per l’integrazione dei dati. In tempi recenti si sono affermati soprattutto gli strumenti capaci di supportare il processo ETL (Extract, Transform and Load).

Più in generale, un’esigenza sempre più forte in termini di integrazione sta spingendo i vendor a ricercare soluzioni capaci di offrire strumenti di replicazione, federazione e modellazione dei dati, per risolvere con un unico strumento l’attività di varie discipline che afferiscono parzialmente al soddisfacimento di un unico obiettivo aziendale.

Il flusso di lavoro sui dati viene pertanto facilitato da soluzioni capaci di integrare vari tool, superando finalmente la storica frammentazione presente sul mercato, che costringeva molto spesso i vari team aziendali ad utilizzare software differenti, con tutti i limiti e le difficoltà relative alle condizioni di scarsa interoperabilità, che favoriva il perdurare di inefficienti data silos.

Il processo ETL (Extract, Transform and Load) e il processo ELT (Extract, Load and Transform)

I sistemi di gestione dei dati, come i data warehouse, si articolano su un particolare processo, denominato ETL, quale acronimo di extract, transform and load, vale a dire estrazione, trasformazione e caricamento:

  • Estrazione: comprende la selezione dei dati da una o più fonti, in modo da acquisirli ed organizzarli in maniera coerente all’interno di uno storage on-premise o in cloud.
  • Trasformazione: caratterizzata dalle operazioni necessarie per adattare le caratteristiche dei file richieste dai sistemi di gestione dei dati, attraverso modifiche al formato, eliminazione di valori nulli o nocivamente ridondanti e correzione di tutti gli aspetti che potrebbero generare risultati non corretti durante i processi analitici.
  • Caricamento: comprende l’upload dei file sui sistemi di gestione dei dati predisposti, ed avviene generalmente secondo due modalità. Si parla di caricamento in modalità batch quando i file vengono semplicemente aggiunti o sovrascritti in toto. Si parla invece di caricamento incrementale nel caso in cui la sincronia dei file va a coinvolgere solo le modifiche rispetto al salvataggio precedente, rendendo di fatto molto più rapido il procedimento rispetto ad una copia completa.

Più recentemente, il processo ETL è stato affiancato dall’ELT, che inverte sostanzialmente le fasi di caricamento e trasformazione, in particolar modo quando si agisce con sistemi di gestione quali i dati lake, che mirano ad acquisire grandi quantità di dati ed elaborarli solo se ciò si rivela necessario.

L’adozione di un processo ELT consente di ottenere alcuni benefici pratici, come la facoltà di analizzare grandi numeriche di dati riducendo contestualmente le attività di manutenzione, rendendo pertanto più economico l’intero flusso di lavoro, che viene reso più rapido nei caricamenti e snello nella gestione complessiva. Il processo ELT consente inoltre di elaborare nativamente dati semi-strutturati e non strutturati, risultando estremamente flessibile in vari contesti applicativi.

Le problematiche legate alla data integration

La natura complessa dei dati si traduce inevitabilmente in una serie di criticità quando si entra nel merito della loro integrazione nei sistemi aziendali. Ciò appare innegabile sia dal punto di vista tecnico che da quello puramente metodologico. Se implementare una procedura di data integration rappresenta una sfida necessaria lungo la strada che conduce alla trasformazione digitale dell’azienda, non è tuttavia possibile trascurare i seguenti nodi, che costituiscono in ogni caso degli importanti spunti di riflessione per chi viene chiamato a progettare e dare concretamente forma all’intero flusso dei dati dell’organizzazione.

1) Data legacy

Quando l’integrazione coinvolge il trasferimento di file già presenti in sistemi legacy, è frequente che questi non prevedano alcuni metadati e marcatori come data e ora, fondamentali per coinvolgerli nelle attività programmate per l’esecuzione automatica sui sistemi di moderna concezione.

2) Disomogeneità dei dati e varietà di fonti di acquisizione

I dati che vengono acquisiti da fonti esterne sono molto spesso caratterizzati da un livello di dettaglio differente rispetto ai dati già conservati nei sistemi di gestione dei dati interni. Appare pertanto evidente come una situazione disomogenea possa risultare causa di problemi in fase analitica.

Tale condizione appare più frequente di quanto si possa pensare, in quanto i dati provenienti dai fornitori presentano molto spesso caratteristiche differenti rispetto a quelli già presenti sui sistemi di gestione interni, costringendo a processi di trasformazione più o meno laboriosi, che potrebbero incidere in maniera severa sul rendimento di un progetto o delle tempistiche necessarie per la sua consegna.

3) Nuove esigenze di business

Le novità generate dal soddisfacimento dei nuovi obiettivi di business comportano molto spesso un aumento di complessità a livello generale, grazie alla presenza di nuovi tipi di dati e, spesso, di software deputati a gestirli.

In questa sede occorre inoltre considerare che i nuovi dati potrebbero provenire da qualsiasi tipo di sorgente, tra cui figurano i più moderni dispositivi IoT e i sensori previsti e/o collocati in prossimità delle macchine / impianti attive sul piano di fabbrica. Diventa pertanto essenziale adattare l’infrastruttura aziendale affinché l’integrazione stessa non si riveli un pericoloso boomerang in termini di complessità da gestire.

4) Implementazione della data integration

Se il punto di partenza e il punto di arrivo di una pipeline di data integration sono relativamente semplici da prevedere, lo stesso non si può dire delle fasi intermedia, in cui si rende necessario comprendere quali sono i tipi di dati da raccogliere e da analizzare.

Di fondamentale importanza è capire da dove provengono i dati, su quali sistemi si prevede di utilizzarli e quali analisi verranno effettuate. In questi aspetti rientra la tipologia delle analisi da eseguire nell’arco di un determinato periodo di tempo e la frequenza di aggiornamento dei report e degli insight richiesti dai decisori aziendali.

ARGOMENTI CORRELATI
Categoria: ANALYTICS
Concept per far capire le potenzialità dei Big Data Analytics: esempi di cruscotti che restituiscono informazioni utili

Big Data Analytics: cos’è e perché è importante

Quando si parla di big data analytics ci si riferisce, solitamente, all’analisi avanzata di grandi volumi di dati. Prendere decisioni… Leggi tutto

Concept per far capire il significato del Data Management: uomo che attraverso degli ingranaggi mette in ordine dei flussi intrecciati e caotici

Data Management: cos’è e perché è necessario in azienda

Oggi più che mai i dati digitali rappresentano un vero e proprio asset, un capitale, un importante fattore economico per… Leggi tutto

Colleghi che discutono di fronte al monitor di un pc. Sullo sfondo altri colleghi che parlano

Data lake vs data warehouse: le differenze e quale scegliere

Nell’era del digitale le organizzazioni collezionano dati provenienti da varie sorgenti, con una quantità ed una varietà che vanno ben… Leggi tutto