All’interno di un progetto di Data Science sono diverse le attività che è necessario svolgere. Spesso si tende a sottovalutare le fasi inziali di preparazione pensando che l’importante sia solo la fase di applicazione degli algoritmi, in realtà la fase iniziale di discovery è importantissima! Esplorare i dati e conoscerli è il primo passo per impostare da subito il progetto nel modo più adatto al contesto, ossia al modo in cui i dati riescono meglio ad esprimere il loro potenziale informativo. È l’occasione per capire con quali informazioni abbiamo a che fare, farsi un’idea di quali operazioni di cleaning sono necessarie e trarre le prime idee su quanto (e quali) dati saranno utili per le successive analisi statistiche e di Machine Learning.  

 

Exploratory Data Analysis: l’entusiasmo e l’incertezza del data scientist durante la fase di data exploration

Tutto ciò che si scopre dall’analisi esplorativa è utile, e più è approfondita l’EDA (Exploratory Data Analysis) più mirata e di impatto sarà l’analisi successiva. 

L’EDA, proprio perché inizia quando l’analista non sa nulla dei dati, può rivelarsi da un lato divertente ed esaltante, dall’altro anche un po’ scoraggiante: sappiamo bene quanto sia emozionante guardare per la prima volta un set di dati, iniziare ad immaginare cosa si potrà ottenere. Ma capita anche di incontrare difficoltà, ad esempio nel comprendere da dove cominciare a fare analisi, e può essere scoraggiante la consapevolezza della possibilità di trovarsi di fronte ad un’accozzaglia di dati inespressiva. 

 

Primi steps verso il risultato: Dataiku guida i data scientist nella fase di data exploration

Dataiku ci viene in aiuto grazie ad una serie di funzionalità che suggeriscono alcune semplici analisi esplorative iniziali in modo da supportare l’utente in questo primo difficile scoglio da superare offrendo suggerimenti utili per sbloccare le proprie idee e per indirizzare al meglio tutta la fase di discovery. Ad esempio l’utente può iniziare ad esplorare il dataset guardando quante righe e colonne ci sono, quanti diversi valori assume ogni dato, o quanti sono i missing value. Metriche come queste sembrano semplici, ma in questa fase sono importantissime per entrare in confidenza con i dati.  Una volta comprese queste nozioni base si può pensare di procedere con cose più specifiche, che non sarebbero significative senza cognizione di causa: ad esempio a seconda del datatype potrei decidere di osservare una media, un andamento, il valore più ricorrente, o metriche di altro tipo che non potrei individuare se nel frattempo non avessi ben compreso il significato di un dato. 

In questo articolo tratto dal blog di Dataiku viene mostrato un esempio di analisi esplorativa all’opera su un dataset creato sui dati degli episodi di Scooby-Doo alla ricerca del miglior detective della Mystery Gang. La risposta non sarà così scontata. 

 

Quali sono le funzionalità esplorative di Dataiku?

Da un primo sguardo alla scheda “Status”  riusciamo a comprendere come si compone il dataset di analisi: numero di colonne, numero di righe e così via. La funzionalità “Esplora” consente, invece, di concentrarsi su informazioni riguardanti i datatype. La funzione “Analizza” permette, infine, di lavorare su singole colonne e rispettive righe che riportano dati sporchi o incompleti, nonché riserva la possibilità di osservare misure di sintesi riferite ad un determinato dato. 

Alla luce di queste informazioni possiamo poi iniziare a ragionare sulla fase di trasformazione dei dati e preparazione del dataset da passare agli algoritmi. In questa fase, rigorosamente ciclica e sperimentale, lo scopo è pulire, ma soprattutto valorizzare i dati andando a gestire le situazioni anomale (come missing value e outliers) e ad arricchire le informazioni associandole tra loro. Nel caso di Scooby Doo, ad esempio, sono stati individuati i gruppi di detective coinvolti in ogni episodio e chi di loro ha scovato un mostro, consentendo, così, di assegnare uno score ad ogni personaggio. 

 

Data visualization: il momento più atteso

Eccoci arrivati al momento che tanto abbiamo atteso, la rivelazione del risultato dell’analisi. La domanda a cui si voleva rispondere era: chi è il detective migliore della serie Scooby-doo? Nulla più che un semplice e chiaro grafico a barre può mostrarci la classifica dei migliori detective sulla base del numero di casi risolti:

Fred batte Scooby 191 a 178: ecco la prima sorpresa! Ci saremmo tutti aspettati dalla serie Scooby Doo che il migliore fosse il protagonista, ma i dati ci rivelano che in realtà non è così. Non solo! Fred risulta essere anche il più bravo a risolvere i misteri in totale autonomia: un vero detective! 

Dataiku, infine, consente anche evoluzioni più complesse, ad esempio nel case in esame, ha permesso di analizzare il successo del lavoro di squadra dei personaggi per capire come sono formati i gruppi di indagine, chi lavorava assieme a chie scovare il successo delle squadre. 

Il risultato è sorprendente: Fred non è solo un battitore libero, ma anche in team sembra apportare un reale valore aggiunto. Come vedete la data exploration si è rivelata uno step fondamentale per raggiungere un risultato che è il caso di dire…. Scooby Dooby Dooooo! 

Approfondimenti da BNext:

Eyes4Innovation, la rete che ti semplifica la vita

La rete ti semplifica la vita. Ecco la massima sintesi del motivo per cui è nata Eyes4Innovation, ed anche lo scopo ultimo perseguito dalle aziende fondatrici. Scopri com’è andato l’evento di presentazione.

Dataiku viene lanciato in AWS Marketplace

Tutti i clienti AWS potranno accedere a Dataiku e sfruttare la potenza dell’AI: infatti Dataiku adesso è disponibile sul marketplace AWS.

Dataiku: le novità della release 9

Dataiku, tante novità. Le energie si concentrano sul processo di trasformazione e analisi del dato e sulla collaborazione con altri tool, come Tableau

Vertica apre le porte alla Data Science

La Data Science, in termini di supporto decisionale alle aziende, ha un potenziale enorme, ma è una materia molto ampia e di carattere sperimentale: non necessariamente l’algoritmo migliore per un settore si rivela buono anche in realtà aziendali...

Dataiku: Intelligenza Artificiale per le case farmaceutiche

Oltre il 60% delle aziende farmaceutiche sono state identificate come “principianti” quando si parla della loro maturità riguardo l’AI.

Data Science Tools: la cassetta degli attrezzi dei team di Data Scientist

Strumenti tecnologici, piattaforme, linguaggi di programmazione, tools di vario genere rappresentano elementi importanti, gli “attrezzi del mestiere” per i Data Scientist. Ecco alcuni dei linguaggi e dei tools che solitamente non mancano all’interno di un team di Data Scientist.

Data Scientist, chi sono e cosa fanno per aiutare le aziende

Oggi i dati rappresentano uno degli asset più critici ed importanti per un’azienda (e non solo), tant’è che ormai si parla dei dati come del nuovo petrolio nell’economia dell’informazione e della conoscenza. Chi lavora sui dati e con i dati gode di un grande vantaggio. Ma chi sono davvero i Data Scientist e cosa fanno concretamente per aiutare le aziende?

Dataiku: i consigli per scegliere il giusto progetto di Data Science

Con decine di potenziali use case ma risorse limitate, è importante dare priorità ai progetti che hanno sia un alto valore di business che un’alta probabilità di successo. I consigli di Dataiku

Le 6 (+1) fasi del processo tipico di Data Science

La Data Science è un campo di studi interdisciplinare il cui obiettivo finale è estrarre informazione e conoscenza utili da dati strutturati o non strutturati. Non esiste un framework unico e universalmente condivido per definire i processi di Data Science, tuttavia, dal punto di vista tecnico lo standard KDD è quello a cui ci si ispira maggiormente, perché indica l’intero processo di ricerca di nuova conoscenza dai dati.

RFM: le analisi sui clienti quali sistemi di supporto alle decisioni

Parliamo delle analisi RFM, pilastro di una data driven company. Sono analisi per la segmentazione della clientela e restituiscono valori ed informazioni utili che diventano la base per fare valutazioni strategiche e prendere decisioni più oggettive, basate sui dati.