All’interno di un progetto di Data Science sono diverse le attività che è necessario svolgere. Spesso si tende a sottovalutare le fasi inziali di preparazione pensando che l’importante sia solo la fase di applicazione degli algoritmi, in realtà la fase iniziale di discovery è importantissima! Esplorare i dati e conoscerli è il primo passo per impostare da subito il progetto nel modo più adatto al contesto, ossia al modo in cui i dati riescono meglio ad esprimere il loro potenziale informativo. È l’occasione per capire con quali informazioni abbiamo a che fare, farsi un’idea di quali operazioni di cleaning sono necessarie e trarre le prime idee su quanto (e quali) dati saranno utili per le successive analisi statistiche e di Machine Learning.  

 

Exploratory Data Analysis: l’entusiasmo e l’incertezza del data scientist durante la fase di data exploration

Tutto ciò che si scopre dall’analisi esplorativa è utile, e più è approfondita l’EDA (Exploratory Data Analysis) più mirata e di impatto sarà l’analisi successiva. 

L’EDA, proprio perché inizia quando l’analista non sa nulla dei dati, può rivelarsi da un lato divertente ed esaltante, dall’altro anche un po’ scoraggiante: sappiamo bene quanto sia emozionante guardare per la prima volta un set di dati, iniziare ad immaginare cosa si potrà ottenere. Ma capita anche di incontrare difficoltà, ad esempio nel comprendere da dove cominciare a fare analisi, e può essere scoraggiante la consapevolezza della possibilità di trovarsi di fronte ad un’accozzaglia di dati inespressiva. 

immagine promozionale del white paper sulle fasi della data science

 

Primi steps verso il risultato: Dataiku guida i data scientist nella fase di data exploration

Dataiku ci viene in aiuto grazie ad una serie di funzionalità che suggeriscono alcune semplici analisi esplorative iniziali in modo da supportare l’utente in questo primo difficile scoglio da superare offrendo suggerimenti utili per sbloccare le proprie idee e per indirizzare al meglio tutta la fase di discovery. Ad esempio l’utente può iniziare ad esplorare il dataset guardando quante righe e colonne ci sono, quanti diversi valori assume ogni dato, o quanti sono i missing value. Metriche come queste sembrano semplici, ma in questa fase sono importantissime per entrare in confidenza con i dati.  Una volta comprese queste nozioni base si può pensare di procedere con cose più specifiche, che non sarebbero significative senza cognizione di causa: ad esempio a seconda del datatype potrei decidere di osservare una media, un andamento, il valore più ricorrente, o metriche di altro tipo che non potrei individuare se nel frattempo non avessi ben compreso il significato di un dato. 

In questo articolo tratto dal blog di Dataiku viene mostrato un esempio di analisi esplorativa all’opera su un dataset creato sui dati degli episodi di Scooby-Doo alla ricerca del miglior detective della Mystery Gang. La risposta non sarà così scontata. 

 

Quali sono le funzionalità esplorative di Dataiku?

Da un primo sguardo alla scheda “Status”  riusciamo a comprendere come si compone il dataset di analisi: numero di colonne, numero di righe e così via. La funzionalità “Esplora” consente, invece, di concentrarsi su informazioni riguardanti i datatype. La funzione “Analizza” permette, infine, di lavorare su singole colonne e rispettive righe che riportano dati sporchi o incompleti, nonché riserva la possibilità di osservare misure di sintesi riferite ad un determinato dato. 

Alla luce di queste informazioni possiamo poi iniziare a ragionare sulla fase di trasformazione dei dati e preparazione del dataset da passare agli algoritmi. In questa fase, rigorosamente ciclica e sperimentale, lo scopo è pulire, ma soprattutto valorizzare i dati andando a gestire le situazioni anomale (come missing value e outliers) e ad arricchire le informazioni associandole tra loro. Nel caso di Scooby Doo, ad esempio, sono stati individuati i gruppi di detective coinvolti in ogni episodio e chi di loro ha scovato un mostro, consentendo, così, di assegnare uno score ad ogni personaggio. 

 

Data visualization: il momento più atteso

Eccoci arrivati al momento che tanto abbiamo atteso, la rivelazione del risultato dell’analisi. La domanda a cui si voleva rispondere era: chi è il detective migliore della serie Scooby-doo? Nulla più che un semplice e chiaro grafico a barre può mostrarci la classifica dei migliori detective sulla base del numero di casi risolti:

Fred batte Scooby 191 a 178: ecco la prima sorpresa! Ci saremmo tutti aspettati dalla serie Scooby Doo che il migliore fosse il protagonista, ma i dati ci rivelano che in realtà non è così. Non solo! Fred risulta essere anche il più bravo a risolvere i misteri in totale autonomia: un vero detective! 

Dataiku, infine, consente anche evoluzioni più complesse, ad esempio nel case in esame, ha permesso di analizzare il successo del lavoro di squadra dei personaggi per capire come sono formati i gruppi di indagine, chi lavorava assieme a chie scovare il successo delle squadre. 

Il risultato è sorprendente: Fred non è solo un battitore libero, ma anche in team sembra apportare un reale valore aggiunto. Come vedete la data exploration si è rivelata uno step fondamentale per raggiungere un risultato che è il caso di dire…. Scooby Dooby Dooooo!