All’interno di un progetto di Data Science sono diverse le attività che è necessario svolgere. Spesso si tende a sottovalutare le fasi inziali di preparazione pensando che l’importante sia solo la fase di applicazione degli algoritmi, in realtà la fase iniziale di discovery è importantissima! Esplorare i dati e conoscerli è il primo passo per impostare da subito il progetto nel modo più adatto al contesto, ossia al modo in cui i dati riescono meglio ad esprimere il loro potenziale informativo. È l’occasione per capire con quali informazioni abbiamo a che fare, farsi un’idea di quali operazioni di cleaning sono necessarie e trarre le prime idee su quanto (e quali) dati saranno utili per le successive analisi statistiche e di Machine Learning.  

 

Exploratory Data Analysis: l’entusiasmo e l’incertezza del data scientist durante la fase di data exploration

Tutto ciò che si scopre dall’analisi esplorativa è utile, e più è approfondita l’EDA (Exploratory Data Analysis) più mirata e di impatto sarà l’analisi successiva. 

L’EDA, proprio perché inizia quando l’analista non sa nulla dei dati, può rivelarsi da un lato divertente ed esaltante, dall’altro anche un po’ scoraggiante: sappiamo bene quanto sia emozionante guardare per la prima volta un set di dati, iniziare ad immaginare cosa si potrà ottenere. Ma capita anche di incontrare difficoltà, ad esempio nel comprendere da dove cominciare a fare analisi, e può essere scoraggiante la consapevolezza della possibilità di trovarsi di fronte ad un’accozzaglia di dati inespressiva. 

 

Primi steps verso il risultato: Dataiku guida i data scientist nella fase di data exploration

Dataiku ci viene in aiuto grazie ad una serie di funzionalità che suggeriscono alcune semplici analisi esplorative iniziali in modo da supportare l’utente in questo primo difficile scoglio da superare offrendo suggerimenti utili per sbloccare le proprie idee e per indirizzare al meglio tutta la fase di discovery. Ad esempio l’utente può iniziare ad esplorare il dataset guardando quante righe e colonne ci sono, quanti diversi valori assume ogni dato, o quanti sono i missing value. Metriche come queste sembrano semplici, ma in questa fase sono importantissime per entrare in confidenza con i dati.  Una volta comprese queste nozioni base si può pensare di procedere con cose più specifiche, che non sarebbero significative senza cognizione di causa: ad esempio a seconda del datatype potrei decidere di osservare una media, un andamento, il valore più ricorrente, o metriche di altro tipo che non potrei individuare se nel frattempo non avessi ben compreso il significato di un dato. 

In questo articolo tratto dal blog di Dataiku viene mostrato un esempio di analisi esplorativa all’opera su un dataset creato sui dati degli episodi di Scooby-Doo alla ricerca del miglior detective della Mystery Gang. La risposta non sarà così scontata. 

 

Quali sono le funzionalità esplorative di Dataiku?

Da un primo sguardo alla scheda “Status”  riusciamo a comprendere come si compone il dataset di analisi: numero di colonne, numero di righe e così via. La funzionalità “Esplora” consente, invece, di concentrarsi su informazioni riguardanti i datatype. La funzione “Analizza” permette, infine, di lavorare su singole colonne e rispettive righe che riportano dati sporchi o incompleti, nonché riserva la possibilità di osservare misure di sintesi riferite ad un determinato dato. 

Alla luce di queste informazioni possiamo poi iniziare a ragionare sulla fase di trasformazione dei dati e preparazione del dataset da passare agli algoritmi. In questa fase, rigorosamente ciclica e sperimentale, lo scopo è pulire, ma soprattutto valorizzare i dati andando a gestire le situazioni anomale (come missing value e outliers) e ad arricchire le informazioni associandole tra loro. Nel caso di Scooby Doo, ad esempio, sono stati individuati i gruppi di detective coinvolti in ogni episodio e chi di loro ha scovato un mostro, consentendo, così, di assegnare uno score ad ogni personaggio. 

 

Data visualization: il momento più atteso

Eccoci arrivati al momento che tanto abbiamo atteso, la rivelazione del risultato dell’analisi. La domanda a cui si voleva rispondere era: chi è il detective migliore della serie Scooby-doo? Nulla più che un semplice e chiaro grafico a barre può mostrarci la classifica dei migliori detective sulla base del numero di casi risolti:

Fred batte Scooby 191 a 178: ecco la prima sorpresa! Ci saremmo tutti aspettati dalla serie Scooby Doo che il migliore fosse il protagonista, ma i dati ci rivelano che in realtà non è così. Non solo! Fred risulta essere anche il più bravo a risolvere i misteri in totale autonomia: un vero detective! 

Dataiku, infine, consente anche evoluzioni più complesse, ad esempio nel case in esame, ha permesso di analizzare il successo del lavoro di squadra dei personaggi per capire come sono formati i gruppi di indagine, chi lavorava assieme a chie scovare il successo delle squadre. 

Il risultato è sorprendente: Fred non è solo un battitore libero, ma anche in team sembra apportare un reale valore aggiunto. Come vedete la data exploration si è rivelata uno step fondamentale per raggiungere un risultato che è il caso di dire…. Scooby Dooby Dooooo! 

Approfondimenti da BNext:

Dataiku: cosa c’è da sapere sulla nuova release

Le novità più importanti della release 11.0 e 11.1.0 spiegate dal nostro data scientist Emiliano Fuccio

Data Science Lifecycle, le 6 (+1) fasi del processo

La Data Science è un campo di studi interdisciplinare il cui obiettivo finale è estrarre informazione e conoscenza utili da dati strutturati o non strutturati. Non esiste un framework unico e universalmente condivido per definire i processi di Data Science, tuttavia, dal punto di vista tecnico lo standard KDD è quello a cui ci si ispira maggiormente, perché indica l’intero processo di ricerca di nuova conoscenza dai dati.

A cosa serve la Data Science?

L’analisi dei dati è in generale una materia molto ampia e con una storia che rimanda indietro di diversi anni da oggi. Si inizia a parlare di analisi dati già alla fine del 1700 con le prime visualizzazioni grafiche e l’evoluzione di questa materia non solo negli...

Churn Strategy: gli step per impostarla al meglio minimizzando il Churn Rate

Churn analysis e churn rate sono due concetti strettamente connessi: l’analisi degli abbandoni (churn analysis) è quella branca della Data Science attraverso cui si cerca di prevedere quali clienti hanno maggiori probabilità di abbandonare l’azienda, cosa che si...

I 6 comandamenti per un Data Storytelling di successo 

Letteralmente il Data Storytelling è l’arte del raccontare una storia attraverso i dati. Si tratta dell’evoluzione della Data Visualization, l’ultimo step di quel lungo processo analitico che ha lo scopo di trasformare i dati provenienti dalle diverse origini di...

Cosa sono i Big Data e come vengono utilizzati?

I Big Data sono ormai entrati a far parte del mercato tecnologico globale, ma spesso questa definizione viene utilizzata senza aver chiaro di cosa si tratta o di quali sono le accortezze e le tecnologie necessarie per poterli sfruttare al meglio nel loro valore...

Chi è e quanto guadagna un Data Engineer?

Fino a qualche tempo fa occuparsi dell’analisi dati in azienda voleva dire fare BI, e non era difficile trovare figure che si occupassero di questo. Nell’ultimo decennio, invece, l’analisi dati si è evoluta in modo esponenziale, si inizia a parlare di Data Science,...

Eyes4Innovation, la rete che ti semplifica la vita

La rete ti semplifica la vita. Ecco la massima sintesi del motivo per cui è nata Eyes4Innovation, ed anche lo scopo ultimo perseguito dalle aziende fondatrici. Scopri com’è andato l’evento di presentazione.

Dataiku viene lanciato in AWS Marketplace

Tutti i clienti AWS potranno accedere a Dataiku e sfruttare la potenza dell’AI: infatti Dataiku adesso è disponibile sul marketplace AWS.

Denodo e la data virtualization a supporto di Machine Learning e Data Science

Il Machine Learning e la Data science sono strettamente legate alla data virtualization. denodo è il tool ideale individuato da BNova