I Big Data sono ormai entrati a far parte del mercato tecnologico globale, ma spesso questa definizione viene utilizzata senza aver chiaro di cosa si tratta o di quali sono le accortezze e le tecnologie necessarie per poterli sfruttare al meglio nel loro valore potenziale.
Nel tempo la loro definizione è cambiata, si è evoluto il concetto stesso di Big Data perché sono cambiate le fonti che li generano e di conseguenza le caratteristiche dei Big Data, ma la base rimane costante: i Big Data “non esistono” in quanto nuova entità del mondo moderno, piuttosto possono essere visti come un’evoluzione del concetto di dato che si distingue dal dato “classico” perché ha delle caratteristiche particolari che lo rendono ad altissimo valore aggiunto.
L’analisi dei Big Data, infatti, è in grado di fornire indicazioni preziose per migliorare il business: i Big Data riescono ad essere una fotografia reale ed aggiornata del contesto, per cui le aziende posso usarli per problemi di ottimizzazione, per rendere i processi più efficienti o per trovare nuove opportunità e nuovi modi di aumentare i profitti.
Vediamo nel dettaglio cosa sono i Big Data e che valore aggiunto si può ottenere impostando in azienda adeguati processi di Big Data Analytics.
Cosa sono i big data?
I big data sono definiti come risorse informative (dati) ad alto volume, alta velocità ed alta varietà; richiedono strumenti per la loro gestione ed elaborazione innovativi e convenienti che consentono di migliorare il processo decisionale e ottimizzare l’automazione dei processi.
Questa definizione, tuttavia, non è sufficiente per offrire un quadro completo del “fenomeno Big Data”: non si tratta soltanto di possedere e di gestire grandi moli di dati, la trasformazione in atto è più profonda. Cambia tutto il processo di raccolta, gestione ed uso dei dati, si evolvono le tecnologie a supporto del ciclo di vita del dato e, parallelamente, si sviluppano nuovi ruoli e nuove competenze, ad esempio quella Data Scientist e del Data Engineer.
Per poter parlare di Big Data, inoltre, non basta averli a disposizione, serve che l’architettura aziendale e i processi di acquisizione e gestione siano adeguati. Negli ultimi anni c’è stato infatti un deciso incremento nella produzione dei Big Data, le aziende potrebbero in breve arrivare a produrre zettabyte di dati (miliardi di terabyte), provenienti ad esempio da sensori, satelliti, strumenti finanziari, telefonici, ecc.
D’altra parte, anche se il termine Big Data, tradotto come “dati grandi”, è legato soprattutto all’enorme volume di dati, strutturati e no, in realtà non è soltanto la quantità dei dati che è importante, ma lo sono anche altre qualità, come velocità e varietà che vedremo più avanti.
Nella nostra vita quotidiana siamo continuamente in contatto con i Big Data, ne sono dimostrazione, ad esempio, i sistemi di raccomandazione usati da Netflix e Amazon che, in near real time, analizzano gli acquisti di tutti gli utenti e li confrontano con gli interessi e le ricerche di ogni persona per suggerirgli di guardare (o acquistare) prodotti in linea con i loro gusti.
In altri settori, ad esempio in quello finanziario, alcune aziende, grazie all’analisi dei comportamenti atipici, hanno scoperto di poter valutare il rischio finanziario di un cliente sfruttando alcune ricerche di data mining. Da una simpatica ricerca è emerso che coloro che acquistano feltrini e protezioni varie per i mobili e per la casa risultano solitamente clienti a basso rischio, migliori per gli istituti di credito perché più responsabili ed attenti ai propri averi e tipicamente più propensi a colmare i debiti.
Perché i Big Data sono importanti?
Saper gestire i Big Data in modo efficiente implementando un buon processo di Big Data Analytics può fare la differenza per il successo delle aziende di tutti i settori. La trasversalità delle Big Data Analytics è legata alle caratteristiche stesse dei Big Data e per questo porta benefici alle aziende di tutti i settori con un forte impatto su tutte le fasi del ciclo produttivo e delle politiche strategiche aziendali.
Per questo stesso motivo non è facile quantificare i benefici in modo univoco, sono ben diversi da un settore all’altro. In generale però possiamo individuare 3 famiglie di vantaggi:
- – Vantaggi quantificabili dal punto di vista economico;
- – Vantaggi quantificabili dal punto di vista delle prestazioni e performance;
- – Vantaggi non quantificabili formalmente, ma misurabili come indicatori qualitativi.
Le cinque V dei Big Data
Per descrivere al meglio la linea che separa i dati “classici” dai Big Data nel 2001, Doug Laney (grande analista ed ex CDO di Gartner) definì in un report le caratteristiche dei Big Data attraverso le 3V: Volume, Velocità e Varietà. Si tratta di un modello semplice per definire questi “nuovi dati” generati dell’aumento delle fonti e dall’evoluzione delle tecnologie.

Volume
Ovvero la quantità di dati prodotti. Una mole gigantesca di informazioni che, a causa dell’aumentare vertiginoso dei devices che producono dati, è in costante crescita. Per dare un’indicazione quantitativa, si può parlare di Big Data quando i volumi crescono di almeno il 50% ogni anno oppure quando si supera la soglia dei 50 terabyte. Pensiamo alla mole di informazioni prodotte dagli utenti dei social media, oppure ai dati di log prodotti dai macchinari industriali, o ancora le transazioni bancarie, i movimenti sui mercati finanziari.
Volumi di questo tipo non sono gestibili con strumenti tradizionali, ed è per questo che quando si parla di Big Data è doveroso e necessario trattare anche tecnologie e tool sviluppate ad hoc.
Velocità
Strettamente connessa ai grandi volumi è la caratteristica peculiare della velocità, non sarebbe possibile infatti avere così tanti dati se la produzione non fosse estremamente veloce. Anche in questo senso è fondamentale avvalersi di tool adeguati per intercettare ed immagazzinare i Big Data in modo corretto, continuativo, senza perdite e con garanzia di qualità del dato.
La caratteristica della velocità può essere declinata in modo duplice, non solo la velocità di produzione dei Big Data, ma anche la velocità di gestione ed analisi degli stessi: la sfida più grande attualmente per le aziende è non solo riuscire a raccogliere questi dati, ma soprattutto analizzarli in tempo utile per prendere decisioni di business in maniera tempestiva perché “il tempo è denaro”.
Varietà
Anche il concetto di varietà può essere declinato in modi diversi: si fa riferimento, infatti, non solo ai diversi tipi di dati disponibili per ogni fonte, come contenuti di testo, foto, video, documenti, quindi dati strutturati e no, ma anche alla varietà delle fonti stesse, ad esempio sistemi transazionali, gestionali, social network, siti web, open data, sensori. E non solo, perché le informazioni mancanti o a corredo di quelle raccolte vengono recuperate tramite l’integrazione di diversi dati e/o diverse sorgenti. La complessità della gestione aumenta quindi in modo esponenziale, ed anche qui emerge la necessità di tecnologie e tool adeguati.
L’ampia varietà di dati a disposizione porta anche il problema di contestualizzare i dati per dare ad ognuno il peso e il significato adeguati: l’interpretazione di un dato infatti varia a seconda della fonte e del contesto in cui viene raccolto. Un passaggio importante soprattutto nel mondo moderno in cui le fake news sono all’ardine del giorno e la velocità delle informazioni ne incrementa la diffusione.
Dal 2001 ai giorni nostri la situazione è ulteriormente cambiata; si è evoluta a tal punto che oggi l’iniziale paradigma delle 3V di Laney sembra limitato nella definizione di Big Data. Dalle 3V il paradigma è stato arricchito di tante variabili, tra cui altre 2 V: Veridicità e Valore.
Veridicità
Ovvero l’attendibilità delle fonti. Gli esperti di settore sono soliti dire “Bad data is worse than no data”. I Big Data sono ormai un asset aziendale ed è fondamentale che siano affidabili e veritieri, sfida, quest’ultima, ancor più difficile da affrontare di quanto non lo fosse quando i dati non avevano il volume, la velocità e la varietà attuali. D’altra parte, però, la qualità e l’integrità delle informazioni è e rimane un pilastro imprescindibile perché influenza in modo importante l’accuratezza dell’analisi.
Valore
Abbiamo già scritto che i Big Data sono il nuovo asset aziendale, il nuovo petrolio, una fonte inestimabile di valore per le aziende. Certo, non basta limitarsi a raccogliere dati per ottenere valore aggiunto. I dati, infatti, anche se raccolti sfruttando le migliori tecnologie disponibili, rimangono fini a sé stessi se non vengono opportunamente sfruttati, e per farlo devono poter essere convertiti in informazioni preziose che permettono alle aziende di verificare ed eventualmente modificare le proprie scelte e strategie.
Se l’informazione è il risultato del processo di analisi del dato, la conoscenza è lo step successivo e si ottiene nel momento in cui le informazioni vengono calate nel contesto aziendale ed usate per prendere decisioni data driven e realizzare azioni. Coloro che usano le informazioni derivanti dai big data ottengono un vantaggio competitivo.
Quest’ultima caratteristica dei Big Data è strettamente legata non solo alle altre caratteristiche, ma soprattutto ai Big Data Analytics: per attuare il processo di estrazione di conoscenza dai dati e far sì che i Big Data si trasformino in informazioni e conoscenza da utilizzare nei processi aziendali, sono infatti necessari strumenti di Analytics ad hoc.
Tornando all’esempio di Netflix risulta chiaro questo passaggio, basta pensare alla mole di informazioni che ogni minuto vengono create dalle ricerche e visualizzazioni degli utenti e come il comportamento degli utenti stessi influisca sulle decisioni aziendali, come la creazione di nuovi contenuti o l’eliminazione di altri non graditi, azione ottima anche per ridurre il rischio di abbandono degli utenti.
In che modo vengono utilizzati i big data: le applicazioni
Il ruolo dei Big Data e delle Big Data Analytics è centrale in tutti i settori e in tutti i dipartimenti interni, certo, in alcuni di questi il modo di usarli può essere più intuitivo che in altri.
Il marketing&sales, ad esempio, è uno dei dipartimenti in cui è più semplice comprenderne l’applicazione: la sfida è quella di soddisfare il proprio cliente andando a proporre la soluzione adeguata nel momento adeguato e con il prezzo che il cliente possa ritenere adeguato.
Questa operazione fino ad alcuni anni fa veniva calcolata solo in base all’età, al sesso, alla localizzazione geografica o al reddito del cliente, mentre adesso sono molte di più le informazioni ottenibili, non solo anagrafiche ma anche e soprattutto comportamentali; se ne ricava una profilazione molto più accurata e ciò è un ottimo punto di partenza per azioni personalizzate.
Il settore manifatturiero può ottenere grandi vantaggi dalla Big Data Analysis: parliamo di monitoring della filiera produttiva, quindi di Industrial IoT, ma anche di ottimizzazione dei magazzini e della logistica.
Nel settore retail i Big data possono aiutare a predire il CLV dei clienti o l’andamento della domanda di alcuni prodotti o, ancora, predire le performance del reparto Sales.
Nel settore bancario i Big Data danno ottimi risultati in tema di Risk Management (previsione delle frodi, Stress testing, Anti money laundering ecc.)
Nel settore health, infine, i Big Data vengono impiegati (mai in sostituzione della figura del medico!) nella predizione di patologie sulla base dell’anamnesi del paziente e nel miglioramento del impiego di risorse a fronte di impennate di accessi nel settore medicale.
In generale possiamo così riassumere i vantaggi ottenibili sfruttando i Big Data:
- – consentono di ottenere risposte più complete alle domande di business perché calcolate su un set di dati molto ampio, veritiero e completo;
- – aumentano, quindi, la fiducia che i decisori ripongono nei dati, il che comporta anche un’evoluzione dell’approccio strategico in ottica data driven.
Grazie alle Big Data Analytics è infatti possibile ridurre i costi, accorciare i tempi dei processi aziendali, sviluppare nuovi prodotti, ottimizzare le offerte e, non meno importante, prendere decisioni più smart.
Come vengono generati e raccolti i big data
Possiamo suddividere i Big Data in 2 grandi famiglie: i Big Data generati automaticamente dai macchinari, caratterizzati da grandissimi volumi e velocità, ma tra loro uniformi nella tipologia, e Big Data generati dalle persone, quindi volumi minori e meno veloci, ma caratterizzati da un’altissima varietà di contenuti (testo, foto, video, geolocalizzazioni, etc).
La generazione del primo tipo di Big Data è di più semplice comprensione; si tratta dei dati di log delle macchine di produzione, output della sensoristica, sistemi di monitoraggio in genere e dati prodotti in automatico da dispositivi. Quelli generati dalle persone invece sono un fenomeno spesso inconsapevole per gli utenti: ogni dispositivo che usiamo genera Big Data, ogni azione sia sul web, sia nella vita quotidiana. Pensiamo ad esempio non solo alle attività sui social network o all’uso dei motori di ricerca, ma anche alle tessere fedeltà usate nei negozi, carte di credito e bancomat, le telecamere di sicurezza, i navigatori GPS che usiamo in macchina. In modo più o meno consapevole lasciamo continuamente delle tracce digitali.
La raccolta dei Big Data non differisce negli step da fare dalla raccolta di dati “classici”, entrambe si compongono di due fasi principali: la fase di integrazione e trasformazione dei dati e quella di archiviazione. La grande differenza quando si parla di Big Data sta nel modo di implementare queste fasi dal punto di vista architetturale, tecnologico e logico.
È qui che concetti come il cloud, la scalabilità, le architetture Big Data assumono un ruolo centrale, i processi ETL di trasformazione ed integrazione dei dati vengono declinati in ottica Big Data e le strutture di memorizzazione cominciano a prendere la forma di database NoSQL, data lake, etc.. E’ difficile in questo senso stilare una lista delle scelte “giuste” o “sbagliate”, non ci sono soluzioni implementative che vanno sempre bene per tutte le situazioni, per qualcuno è meglio un datalake, per altri meglio un db NoSQL, dipende da molti fattori, non ultimo l’uso che si vuole fare dei dati a disposizione.
Categoria: DATA SCIENCE

Data Science Lifecycle, le 6 (+1) fasi del processo
La Data Science è un campo di studi interdisciplinare il cui obiettivo finale è estrarre informazione e conoscenza utili da… Leggi tutto

A cosa serve la Data Science?
L’analisi dei dati è in generale una materia molto ampia e con una storia che rimanda indietro di diversi anni… Leggi tutto

Churn Strategy: gli step per impostarla al meglio minimizzando il Churn Rate
Churn analysis e churn rate sono due concetti strettamente connessi: l’analisi degli abbandoni (churn analysis) è quella branca della Data… Leggi tutto