All’interno di un progetto di Data Science sono diverse le attività che è necessario svolgere. Spesso si tende a sottovalutare le fasi inziali di preparazione pensando che l’importante sia solo la fase di applicazione degli algoritmi, in realtà la fase iniziale di discovery è importantissima! Esplorare i dati e conoscerli è il primo passo per impostare da subito il progetto nel modo più adatto al contesto, ossia al modo in cui i dati riescono meglio ad esprimere il loro potenziale informativo. È l’occasione per capire con quali informazioni abbiamo a che fare, farsi un’idea di quali operazioni di cleaning sono necessarie e trarre le prime idee su quanto (e quali) dati saranno utili per le successive analisi statistiche e di Machine Learning.  

 

Exploratory Data Analysis: l’entusiasmo e l’incertezza del data scientist durante la fase di data exploration

Tutto ciò che si scopre dall’analisi esplorativa è utile, e più è approfondita l’EDA (Exploratory Data Analysis) più mirata e di impatto sarà l’analisi successiva. 

L’EDA, proprio perché inizia quando l’analista non sa nulla dei dati, può rivelarsi da un lato divertente ed esaltante, dall’altro anche un po’ scoraggiante: sappiamo bene quanto sia emozionante guardare per la prima volta un set di dati, iniziare ad immaginare cosa si potrà ottenere. Ma capita anche di incontrare difficoltà, ad esempio nel comprendere da dove cominciare a fare analisi, e può essere scoraggiante la consapevolezza della possibilità di trovarsi di fronte ad un’accozzaglia di dati inespressiva. 

 

Primi steps verso il risultato: Dataiku guida i data scientist nella fase di data exploration

Dataiku ci viene in aiuto grazie ad una serie di funzionalità che suggeriscono alcune semplici analisi esplorative iniziali in modo da supportare l’utente in questo primo difficile scoglio da superare offrendo suggerimenti utili per sbloccare le proprie idee e per indirizzare al meglio tutta la fase di discovery. Ad esempio l’utente può iniziare ad esplorare il dataset guardando quante righe e colonne ci sono, quanti diversi valori assume ogni dato, o quanti sono i missing value. Metriche come queste sembrano semplici, ma in questa fase sono importantissime per entrare in confidenza con i dati.  Una volta comprese queste nozioni base si può pensare di procedere con cose più specifiche, che non sarebbero significative senza cognizione di causa: ad esempio a seconda del datatype potrei decidere di osservare una media, un andamento, il valore più ricorrente, o metriche di altro tipo che non potrei individuare se nel frattempo non avessi ben compreso il significato di un dato. 

In questo articolo tratto dal blog di Dataiku viene mostrato un esempio di analisi esplorativa all’opera su un dataset creato sui dati degli episodi di Scooby-Doo alla ricerca del miglior detective della Mystery Gang. La risposta non sarà così scontata. 

 

Quali sono le funzionalità esplorative di Dataiku?

Da un primo sguardo alla scheda “Status”  riusciamo a comprendere come si compone il dataset di analisi: numero di colonne, numero di righe e così via. La funzionalità “Esplora” consente, invece, di concentrarsi su informazioni riguardanti i datatype. La funzione “Analizza” permette, infine, di lavorare su singole colonne e rispettive righe che riportano dati sporchi o incompleti, nonché riserva la possibilità di osservare misure di sintesi riferite ad un determinato dato. 

Alla luce di queste informazioni possiamo poi iniziare a ragionare sulla fase di trasformazione dei dati e preparazione del dataset da passare agli algoritmi. In questa fase, rigorosamente ciclica e sperimentale, lo scopo è pulire, ma soprattutto valorizzare i dati andando a gestire le situazioni anomale (come missing value e outliers) e ad arricchire le informazioni associandole tra loro. Nel caso di Scooby Doo, ad esempio, sono stati individuati i gruppi di detective coinvolti in ogni episodio e chi di loro ha scovato un mostro, consentendo, così, di assegnare uno score ad ogni personaggio. 

 

Data visualization: il momento più atteso

Eccoci arrivati al momento che tanto abbiamo atteso, la rivelazione del risultato dell’analisi. La domanda a cui si voleva rispondere era: chi è il detective migliore della serie Scooby-doo? Nulla più che un semplice e chiaro grafico a barre può mostrarci la classifica dei migliori detective sulla base del numero di casi risolti:

Fred batte Scooby 191 a 178: ecco la prima sorpresa! Ci saremmo tutti aspettati dalla serie Scooby Doo che il migliore fosse il protagonista, ma i dati ci rivelano che in realtà non è così. Non solo! Fred risulta essere anche il più bravo a risolvere i misteri in totale autonomia: un vero detective! 

Dataiku, infine, consente anche evoluzioni più complesse, ad esempio nel case in esame, ha permesso di analizzare il successo del lavoro di squadra dei personaggi per capire come sono formati i gruppi di indagine, chi lavorava assieme a chie scovare il successo delle squadre. 

Il risultato è sorprendente: Fred non è solo un battitore libero, ma anche in team sembra apportare un reale valore aggiunto. Come vedete la data exploration si è rivelata uno step fondamentale per raggiungere un risultato che è il caso di dire…. Scooby Dooby Dooooo! 

Approfondimenti da BNext:

Dataiku viene lanciato in AWS Marketplace

Tutti i clienti AWS potranno accedere a Dataiku e sfruttare la potenza dell’AI: infatti Dataiku adesso è disponibile sul marketplace AWS.

Prevenire l’abbandono dei clienti: le churn analysis in Niky

Le churn analysis sono analisi avanzate dei dati che non solo offrono una previsione della tendenza all’abbandono da parte dei clienti, ma consente di trarre efficaci strategie per migliorare la Customer eXperience.

Niky Analytics, analisi avanzate dei dati per il Retail Marketing

Gli analytics nel retail: Niky Analytics per migliorare l’esperienza del cliente, aumentare le vendite e ottimizzare le operations

Dataiku: le novità della release 9

Dataiku, tante novità. Le energie si concentrano sul processo di trasformazione e analisi del dato e sulla collaborazione con altri tool, come Tableau

Predictive Analytics nel Retail marketing, i casi d’uso

Retail marketing, i casi d’uso delle predictive analytics. Alcuni esempi applicativi delle analisi predittive nell’ambito del Retail marketing

Retail Analytics, la Data Science applicata al settore del commercio

Cosa sono i Retail Analytics, a cosa servono e per chi sono utili. Scopri come sfruttare al meglio la Retail Data Analysis

Dataiku: Intelligenza Artificiale per le case farmaceutiche

Oltre il 60% delle aziende farmaceutiche sono state identificate come “principianti” quando si parla della loro maturità riguardo l’AI.

denodo: quando la Data Virtualization fa la differenza

La data virtualization è trasversale e può fare la differenza in quelle situazioni in cui i dati sono su diverse fonti da integrare

Le analisi di coorte integrate in Niky, la piattaforma di Customer Analytics di BNova

Nelle analisi di coorte integrate in Niky puoi osservare l’evoluzione nel tempo delle coorti acquisendo informazioni di valore per il business

Data Virtualization: a chi porta i maggiori benefici?

I vantaggi e benefici che la Data Virtualization porta in azienda riguardano tutti i data consumer, ciascuno in modo diverso. Vediamo per le diverse funzioni aziendali, quali sono i benefici più evidenti.