Attorno alla Data Science si sono sviluppate negli anni molte discipline affini e complementari ma che differiscono tra loro spesso in riferimento alla tipologia di analisi e di “lavoro” che viene condotto sui dati. Cerchiamo allora di capire come si è evoluta da Data Science e, soprattutto, come si è passati dalla Business Intelligence agli Advanced Analytics, in cosa differiscono e perché sono entrambi importanti per il processo decisionale nelle aziende.

Cos’è la Data Science e perché è una scienza multidisciplinare

La data science, in italiano la scienza dei dati, può essere definita come l’insieme delle discipline, delle tecniche e dei principi metodologici che si basano sul metodo scientifico necessari ad “osservare” i dati, ossia interpretarli, analizzarli ed estrarne informazioni e conoscenza utile (solitamente grazie al supporto di esperti chiamati data scientist).

Il termine Data Science fu coniato dall’informatico Peter Naur nel 1974: uso questo termine per la prima volta nel suo libro “Concise Survey of Computer Methods” per spiegare l’evoluzione dell’informatica verso una scienza più vicina ai dati, dapprima identificata dallo stesso Naur come “datalogy” e poi chiamata come tutti noi la conosciamo oggi, Data Science – scienza dei dati.

Inizialmente Naur intese la Data Science come la scienza (da intendersi come disciplina) legata alla gestione e alla manipolazione dei dati (quindi con una strettissima correlazione all’informatica tradizionali di quegli anni). A quell’epoca non c’era ancora l’enfasi sui temi del valore dei dati, quindi nella Data Science non rientravano approcci e strumenti metodologici (e tecnologici) per la loro analisi e interpretazione.

Dobbiamo attendere addirittura il 2001 per arrivare a vedere la Data Science non più come branca dell’informatica (della matematica e della statistica) ma come disciplina a sé. Il percorso è dovuto a William S. Cleveland (noto anche come Bill Cleveland), informatico americano e professore di statistica e di informatica, che suggerì di iniziare a vedere la Data Science come una disciplina complessa caratterizzata da differenti domini di competenza (ricerca multidisciplinare, modelli, elaborazione dati, pedagogia, valutazione degli strumenti e teoria dei dati). Da un punto di vista “tecnico”, nella visione di Cleveland, le aree tecniche della scienza dei dati sono quelle che hanno un impatto su come un Data Scientist, ossia un analista di dati, studia, esamina, scompone e analizza i dati: teoria statistica; modelli statistici; metodi statistici e di apprendimento automatico; algoritmi per metodi statistici e di apprendimento automatico e ottimizzazione; sistemi computazionali per l’analisi dei dati; analisi in tempo reale di dati in cui i risultati sono giudicati dai risultati, non dalla metodologia e dai sistemi utilizzati.

Il concetto di Data Science è poi evoluto ancora, soprattutto a seguito dell’evoluzione degli Analytics e all’avvento dei Big Data che hanno contribuito a “dare forma” ad una scienza multidisciplinare il cui principio di base non è la gestione del dato ma la sua valorizzazione.

Oggi la Data Science, pur mantenendo alcune peculiarità della sua definizione originale (ossia la trasversalità di discipline scientifiche: informatica, matematica e statistica), viene intesa come scienza multidisciplinare che richiede competenze più vicine al mondo del business, legate alle capacità di saper leggere, interpretare, comprendere e capitalizzare i dati per estrarne valore utile.

Per capire la “complessità” di questa scienza multidisciplinare, può venire in auto il diagramma che gli analisti di Gartner hanno pubblicato nel 2016 e che ben schematizza la concettualizzazione odierna di Data Science.

Data Science e Big Data Advanced Analytics

Dagli Advanced Analytics è poi evoluta la disciplina dei cosiddetti Big Data Advanced Analytics, termine usato per enfatizzare non tanto la diversità dei metodi di analisi dei dati quanto dalla “materia prima”, i Big Data anziché i dati “normali”.

Una definizione, seppur sommaria, di Big Data Advanced Analytics potrebbe dunque essere “la scienza dell’analisi predittiva di grandi molti di dati eterogenei (provenienti da molte fonti diverse) e di natura differente (dati strutturati e dati non strutturati) per la scoperta, l’interpretazione e la conoscenza di modelli significativi in tali moli di dati fondamentali per processi decisionali più efficaci”.

È evidente che i Big Data, in questa accezione, non rappresentano l’analisi in sé ma il “mezzo” che alimenta le analisi. Mezzo che ha meritato un posto in prima fila nella Data Science perché la natura stessa di questi dati, la velocità con cui aumentano ed evolvono, hanno inevitabilmente un impatto diretto e consistente sulla scienza dell’analisi dei dati.

Senza ripercorrere cosa sono i Big Data, di cui molto si è scritto, soprattutto in riferimento alle 3 V (Volume, Varietà, Velocità), poi divenute 5+1 (Volume, Varietà, Velocità, Veridicità, Variabilità + Valore), Data Science e Big Data Advanced Analytics sono oggi le due discipline (o meglio, quest’ultima l’espressione specifica e peculiare legata all’analisi predittiva dei dati della macro disciplina della scienza dei dati) che più riscuotono interesse da parte delle aziende.

Il perché è comprensibile guardando alla portata (ed al valore, soprattutto) dei Big Data stessi che consentono alle aziende – attraverso la loro corretta analisi ed interpretazione – di avere un patrimonio di informazioni e conoscenza utile per capire gli andamenti di mercati sempre più incerti e dinamici, intuire le “mosse” della concorrenza, comprendere esigenze (anche inespresse) e desideri degli utenti per migliorare engagement, fidelizzazione o ridurre i rischi di abbandono, gestire e mitigare i rischi finanziari e di business… e via dicendo.

In definitiva, le aziende oggi guardano con interesse agli Analytics perché hanno bisogno di strumenti (senza dimenticare processi, metodologie e approcci disciplinari, competenze) che possano aiutarle a prendere decisioni in modo più consapevole e oggettivo, basandosi sui dati. Perché hanno bisogno, in altri termini, di evolvere verso un modello data-driven enterprise.

 

Podcast BNova


Approfondimenti da BNext:

Data Science Lifecycle, le 6 (+1) fasi del processo

La Data Science è un campo di studi interdisciplinare il cui obiettivo finale è estrarre informazione e conoscenza utili da dati strutturati o non strutturati. Non esiste un framework unico e universalmente condivido per definire i processi di Data Science, tuttavia, dal punto di vista tecnico lo standard KDD è quello a cui ci si ispira maggiormente, perché indica l’intero processo di ricerca di nuova conoscenza dai dati.

A cosa serve la Data Science?

L’analisi dei dati è in generale una materia molto ampia e con una storia che rimanda indietro di diversi anni da oggi. Si inizia a parlare di analisi dati già alla fine del 1700 con le prime visualizzazioni grafiche e l’evoluzione di questa materia non solo negli...

Churn Strategy: gli step per impostarla al meglio minimizzando il Churn Rate

Churn analysis e churn rate sono due concetti strettamente connessi: l’analisi degli abbandoni (churn analysis) è quella branca della Data Science attraverso cui si cerca di prevedere quali clienti hanno maggiori probabilità di abbandonare l’azienda, cosa che si...

I 6 comandamenti per un Data Storytelling di successo 

Letteralmente il Data Storytelling è l’arte del raccontare una storia attraverso i dati. Si tratta dell’evoluzione della Data Visualization, l’ultimo step di quel lungo processo analitico che ha lo scopo di trasformare i dati provenienti dalle diverse origini di...

Cosa sono i Big Data e come vengono utilizzati?

I Big Data sono ormai entrati a far parte del mercato tecnologico globale, ma spesso questa definizione viene utilizzata senza aver chiaro di cosa si tratta o di quali sono le accortezze e le tecnologie necessarie per poterli sfruttare al meglio nel loro valore...

Chi è e quanto guadagna un Data Engineer?

Fino a qualche tempo fa occuparsi dell’analisi dati in azienda voleva dire fare BI, e non era difficile trovare figure che si occupassero di questo. Nell’ultimo decennio, invece, l’analisi dati si è evoluta in modo esponenziale, si inizia a parlare di Data Science,...

Dataiku e Data Exploration: chi è il miglior detective della serie “Scooby-doo”?

Dataiku e la data exploration, il primo passo per impostare i progetti nel modo più adatto è esplorare i dati e imparare a conoscerli.

Denodo e la data virtualization a supporto di Machine Learning e Data Science

Il Machine Learning e la Data science sono strettamente legate alla data virtualization. denodo è il tool ideale individuato da BNova

Data Science Tools: la cassetta degli attrezzi dei team di Data Scientist

Strumenti tecnologici, piattaforme, linguaggi di programmazione, tools di vario genere rappresentano elementi importanti, gli “attrezzi del mestiere” per i Data Scientist. Ecco alcuni dei linguaggi e dei tools che solitamente non mancano all’interno di un team di Data Scientist.

Natural Language Processing (R)evolution

Reti neurali, AI. Tutte tecnologie che portano all’evoluzione del NLP verso modelli Transformers e Assistenti virtuali.