La Data Science è un campo di studi interdisciplinare il cui obiettivo finale è estrarre informazione e conoscenza utili da dati strutturati o non strutturati. Vista dalla prospettiva di business, la scienza dei dati consente di tradurre un problema aziendale in un progetto di ricerca e analisi e trasformarlo poi, sempre con l’aiuto dei dati, in una soluzione pratica.

Benché come disciplina di studio a sé stante, staccata dall’informatica, la Data Science iniziò a muovere i primi passi a metà degli anni ’70 del secolo scorso, la materia ha iniziato a “prendere forma” soprattutto a seguito dell’evoluzione degli Analytics e all’avvento dei Big Data che hanno contribuito a far evolvere la Data Science verso una scienza multidisciplinare il cui principio di base non è la gestione del dato ma la sua valorizzazione.

Oggi la Data Science, pur mantenendo alcune peculiarità della sua definizione originale (ossia la trasversalità di discipline scientifiche: informatica, matematica e statistica), viene intesa come scienza multidisciplinare che richiede competenze più vicine al mondo del business, legate alle capacità di saper leggere, interpretare, comprendere e capitalizzare i dati per estrarne valore utile.

Ed è proprio da questa definizione che derivano le fasi di un processo tipico di Data Science, fasi che riguardano un processo di analisi ed interpretazione dei dati che deve essere visto più come iterativo che lineare, soggetto a continua verifica. Ad ogni modo, l’aspetto ciclico del processo non impedisce di identificarne i passaggi fondamentali. Ad oggi non esiste un framework unico e universalmente condiviso per definire i processi di Data Science, tuttavia, dal punto di vista tecnico lo standard KDD – Knowledge Discovery in Databases è quello a cui ci si ispira maggiormente, perché indica l’intero processo di ricerca di nuova conoscenza dai dati. Un processo che può essere ricondotto a sei fasi (più una, l’iterazione).

Fase 1 – Discovery: individuare e capire il problema (identificare gli obiettivi)

Se, come abbiamo detto, scopo della Data Science è tradurre un problema in progetto di analisi e poi in soluzione pratica, il primo importante passo da compiere è individuare e capire il problema.

Prima di risolvere un problema, infatti, è fondamentale definire esattamente di cosa si tratta, che significa essere in grado di “tradurre” le domande sui dati in qualcosa di utilizzabile. Semplificando e generalizzando un po’, la Data Science è utile per rispondere a cinque tipi di domande fondamentali:

  • – Quanto o quanti? (regressione)
  • – Quale categoria? (classificazione)
  • – Quale gruppo? (raggruppamento)
  • – È strano? (rilevamento anomalie)
  • – Quale opzione dovrebbe essere presa? (raccomandazione)

Guardando queste domande da una prospettiva di business, ciò che serve per identificare e capire il problema è porre le domande giuste ad interlocutori (persone di business) che spesso forniscono input ambigui e soggettivi. Serve l’abilità – e l’intuizione – di trasformare quegli input in informazioni per porre le domande giuste, quelle che serviranno per avere output utilizzabili per le altre fasi del processo di Data Science.

Per esempio, domande di business quali:

  • > Chi sono i migliori clienti?
  • > Perché stanno acquistando “quel” prodotto?
  • > Come prevedere se un cliente acquisterà un altro tipo di prodotto?
  • > Perché quei clienti non acquistano più da molto tempo?

potrebbero aiutare a “scovare” il problema (alcuni clienti acquistano meno del previsto o si comportano in modo diverso), dal quale far partire una serie di analisi per prendere determinate decisioni (continuare ad investire su un prodotto oppure cambiare offerta).

È importante che alla fine di questa fase ci siano tutti gli elementi per definire lo specifico contesto di business e aziendale e aver delineato bene il problema affinché il progetto di analisi – prima ancora di pensare ai dati – possa essere pianificato per dare concretamente risposta ad una chiara esigenza di business (anche di tipo organizzativo).

Questa fase è importantissima perché permette di identificare un obiettivo chiaro di ciò che si vuole fare con i dati.

Fase 2 –  Data Selection / Collect the right data: recuperare i “dati grezzi” necessari al problema individuato

Una volta definito il problema e chiarito l’obiettivo, è necessario raccogliere i dati, trovare i set di dati di cui si ha bisogno per risolvere il problema. La Data Selection, in parole estremamente semplici, è il processo di raccolta dei dati da diverse fonti.

Questa fase del processo richiede una certa attenzione perché implica sia il pensare a priori quali dati saranno necessari, sia il “recupero” effettivo dei dati da una pluralità di fonti (sia interne all’azienda ma anche dataset esterni).

I dati, infatti, potranno essere dati strutturati (per esempio provenienti da database e applicazioni interne all’azienda, come un CRM o una applicazione industriale, per esempio per la gestione della produzione o del magazzino) oppure non strutturati (testi, immagini, video provenienti da e-mail, documenti, piattaforme di collaboration, ma anche da fonti esterne come social networks, repository open di documenti, pagine web, ecc.).

Fase 3 – Data Cleaning / Data Preparation: processare i dati per le analisi

La fase di Data Cleaning (o di Data Preparation) consiste nell’atto di manipolare, pre-elaborare, quei dati grezzi provenienti da svariate fonti e in formati differenti, per pulirli, sistemarli, armonizzarli e trasformarli in dati utilizzabili poi dagli strumenti di analisi.

La pre-elaborazione dei dati è forse la fase più dispendiosa in termini di tempo ed implica procedure per preparare i dati quali profilazione, pulizia, convalida e trasformazione dei dati (spesso con tecnologie di ETL – Extract, Transform, Load e di Data Quality).

Di fatto, lavorare sulla “pulizia dei dati”, significa:

  • – eliminare il “rumore” o altri disturbi dei dati;
  • – organizzare e preparare i dati da analizzare;
  • – mettere a punto strategie per gestire i dati mancanti e i dati che variano nel tempo.

Parte integrante della Data Preparation è anche il cosiddetto Data Enrichment (arricchimento dei dati) ossia l’insieme dei processi necessari ad integrare e migliorare i dati grezzi e le informazioni nei database (il processo è importante perché consente di confrontare i dati provenienti da diverse fonti e di unificarli ed integrarli, al fine di arrivare ad avere dataset integri, accurati e completi).

Anche se si tratta di una fase impegnativa, è fondamentale che venga eseguita con la massima cura perché trasferire alla fase successiva dati incongruenti, incoerenti, mancanti, di scarsa qualità, ecc. comporta non solo errori nei modelli di analisi ma anche output che potrebbero non risultare efficaci al processo decisionale o, peggio ancora, indurre in errore.

Non solo, elemento cruciale della preparazione dei dati è la compliance normativa: è importantissimo assicurarsi fin dalle prime fasi del progetto che i dati utilizzati (e le modalità con le quali vengono usati ed analizzati) rispettino le leggi sulla privacy e la data protection.

Fase 4 – Data Exploration / Data Transformation: esplorare e trasformare i dati

Una volta ottenuti i dati, si prosegue con la fase di Data Exploration eseguendo una prima “analisi esplorativa”; in sostanza, si effettuano dei test statistici, si fanno le prime analisi e si verificano le prime tecniche di Data Visualization.

È in questa fase che i Data Scientist identificano e predispongono ciò che è poi necessario per sperimentare i modelli analitici, comprendere le loro performance rispetto al problema da risolvere ed i dati a disposizione e, soprattutto, si scovano eventuali “pregiudizi nei dati”.

Ed è forse da qui che inizia a vedersi il concetto di processo iterativo e non lineare. Nella fase di Data Exploration, infatti, possono emergere errori nei dati o comunque esigenze di intervento che “riportano” i team alla fase precedente di pulizia, preparazione, arricchimento dei dati.

Parte della fase di Data Exploration – o meglio, strettamente connesse – sono la sperimentazione e modellazione, cioè il processo di identificazione e costruzione del modello di analisi per la risoluzione dello specifico problema individuato nella primissima fase dell’intero processo di Data Science. Queste fasi implicano la “messa a punto” di tutti i parametri di controllo e validazione (compresa la scelta degli algoritmi ed il loro eventuale “tuning”) del modello analitico. Quest’ultimo viene dunque testato sfruttando i dati trasformati ed in base agli output generati (ossia agli insights ottenuti) se ne valuta la prestazione e l’efficacia in termini di accuratezza delle informazioni ed effettivo valore rispetto al processo decisionale.

In questa fase si testano anche i sistemi di Data Visualization per verificare che le informazioni generate dai modelli di analisi siano accessibili, fruibili e comprensibili alle persone di business coinvolte nel processo decisionale.

Fase 5 – Data Mining: analisi avanzate e apprendimento automatico

È in questa fase che prende forma il vero e proprio Data Mining [anche se, l’intero processo, tipicamente interattivo e iterativo, di ricerca, estrazione ed interpretazione di pattern dai dati – indicato come KDD – coinvolge l’applicazione ripetuta di specifici metodi e algoritmi di data mining e l’interpretazione dei pattern generati da tali algoritmi].

A questo punto del processo si fa uso di algoritmi per analizzare i dati, scoprire modelli nascosti o estrarre conoscenza interessante da questi dati. Queste le operazioni “tipiche” di questa fase: individuazione parametri, elaborazione, modellizzazione, valutazione modelli.

È qui, infatti, che si definisce in che modo estrarre effettivo valore da grandi volumi di informazioni, scegliendo gli algoritmi ed i metodi di “addestramento” per ricercare pattern nei dati (per esempio con l’apprendimento automatico), nonché la forma di rappresentazione o il set di rappresentazioni diverse con le quali si vogliono estrarre le informazioni (regole di classificazione, alberi decisionali, regressione, clustering, ecc.). La stessa interpretazione dei pattern trovati, potrebbe rappresentare un possibile ritorno alle fasi precedenti del processo di Data Science per ulteriori iterazioni.

Dopo aver testato i primi modelli, i Data Scientist potrebbero identificarne altri per fare analisi più approfondite (per esempio per scoprire tendenze nei dati che non erano distinguibili in grafici e statistiche iniziali) oppure per “costruire previsioni” (per esempio analizzando i dati passati e trovando le caratteristiche che hanno influenzato le tendenze passate per costruire modelli per le cosiddette analisi predittive).

Parte importante di questa fase del processo di Data Science, è anche fornire alle persone di business tutti gli elementi necessari (sia quantitativi sia qualitativi) per poter accedere ad informazioni e conoscenza che siano davvero rilevanti rispetto al problema identificato, alla possibile soluzione applicabile e, quindi, efficaci rispetto alla decisione di business (motivo per cui dopo la Data Exploration spesso si dedica molto tempo alla modellazione). In altre parole, è in questa fase che – dopo aver fatto tutte le valutazioni ed eventualmente le iterazioni necessarie – i Data Scientist rendono operativo il modello, mettendolo a disposizione delle persone di business (soprattutto attraverso sistemi di Data Visualization).

Fase 6 – Data Visualization: comunicare e visualizzare i risultati

Come accennato, la Data Visualization, in realtà, entra in gioco più volte durante le varie fasi del processo tipico di Data Science. Sebbene dunque trovi ampio spazio nella fase sei, è bene collocarla anche nelle precedenti fasi, soprattutto nella fase di Data Exploration.

La fase “finale” del processo riguarda infatti la comunicazione dei risultati derivanti dalle analisi, intesa non tanto come restituzione delle informazioni da parte dei Data Scientist alle persone di business, quanto invece come visualizzazione di tali risultati attraverso i sistemi di analisi che devono essere resi disponibili ed utilizzabili con facilità proprio dagli utenti di business.

Qui entrano in gioco i sistemi di Data Visualization e Data Storytelling, ossia sistemi di analisi avanzate dei dati che consentono di “leggere”, tra centinaia e migliaia di dati (di formati e strutture diverse, provenienti da finti diversificate, come per esempio i Big Data), informazioni, correlazioni, pattern, cioè di scovare “una storia” nascosta in questi dati che può venire “a galla” solo attraverso un’analisi avanzata e può diventare fruibile per le persone di business, senza specifiche competenze tecniche, proprio grazie al Data Storytelling e alla visualizzazione delle informazioni.

Ultimo passaggio (il +1) è l’iterazione, ripetere e migliorare in un ciclo continuo

Una volta messo in produzione il sistema di analisi, non si deve commettere l’errore di pensare che il processo sia finito. È fondamentale continuare a monitorare le performance dei modelli rispetto agli obiettivi di business (modelli e algoritmi non sono efficaci e performanti all’infinito)

Uno dei più grandi errori nella Data Science è infatti pensare che una volta che un modello è stato sviluppato e reso operativo, continuerà a funzionare sempre in modo efficace. In realtà, la qualità dei modelli tende a peggiorare ed i Data Scientist sono chiamati continuamente a migliorarli lavorando sui dati (alimentando i sistemi con nuovi dati, per esempio), ripartendo cioè dalla Data Selection e via via lungo le altri fasi del processo di Data Science.

New call-to-action
ARGOMENTI CORRELATI
Categoria: DATA SCIENCE
bnova-niky-churnanalysis

Prevenire l’abbandono dei clienti: le churn analysis in Niky

Le churn analysis sono analisi avanzate dei dati che non solo offrono una previsione della tendenza all’abbandono da parte dei… Leggi tutto

analytics-retail-niky

Niky Analytics, analisi avanzate dei dati per il Retail Marketing

Gli analytics nel retail: Niky Analytics per migliorare l'esperienza del cliente, aumentare le vendite e ottimizzare le operations Leggi tutto

dataiku_9

Dataiku: le novità della release 9

Dataiku, tante novità. Le energie si concentrano sul processo di trasformazione e analisi del dato e sulla collaborazione con altri… Leggi tutto