Per implementare un sistema efficiente di big data analysis, la potenza del motore di elaborazione e l’efficacia degli algoritmi di calcolo non bastano. Bisogna costruire un framework consolidato e ripetibile per migrare i modelli matematici dal laboratorio all’ambiente di produzione. Quindi occorre trasformare gli insights (le evidenze nascoste risultanti delle analisi) in elementi concretamente fruibili da chiunque in azienda. Proposta da Bnova, Dataiku è la piattaforma di data science collaborativa che copre tutta la filiera dalla creazione di un processo di analisi, passando per la definizione del dataset fino ad arrivare alla creazione della reportistica.
Una piattaforma per tutte le tipologie di utenti
La principale caratteristica di Dataiku è la struttura modulare che soddisfa le esigenze di figure professionali differenti grazie a un ampio ventaglio di funzionalità, permettendo la collaborazione sinergica.
I business analysts, senza un background tecnico specifico, possono beneficiare di un’interfaccia grafica intuitiva che permette di visualizzare ed esplorare i dati con semplicità.
I data & IT engineers hanno a disposizione una serie di strumenti per monitorare tutte le attività della piattaforma, dal controllo degli accessi degli utenti al deployment automatizzato dei modelli.
I data scientists si avvantaggiano di un insieme di funzionalità per la creazione dei modelli e il monitoraggio del processo di analisi. Possono disporre di strumenti nativi, plugin esterni e di un ambiente di scripting in cui utilizzare linguaggi di mining come R e Python, e impostare alcuni automatismi (ad esempio per ridurre la ridondanza di codice), che permettono di accelerare i tempi di sviluppo e minimizzare gli errori.
Gli analytics leaders dispongono infine di dashboard personalizzabili che permettono di comunicare facilmente le informazioni agli stackholders (ad esempio, clienti e fornitori).
Gestione end-to-end dei progetti analitici
Dataiku racchiude all’interno di un’unica piattaforma tutte le funzionalità indispensabili per attivare e gestire un progetto di data science.
La prima fase del processo analitico riguarda la raccolta e la pulizia dei dati pertinenti. Si determinano le fonti e si stabilisce un framework operativo per la pre-elaborazione delle informazioni. Grazie a una serie di procedure pre-impostate oppure di script personalizzabili, è possibile eseguire una sequenza di operazioni di cleaning, come la campionatura o l’eliminazione delle ridondanze.
Successivamente, Dataiku offre la possibilità di sviluppare modelli di machine learning attraverso procedure guidate passo-a-passo, sfruttando librerie integrate di ultima generazione come Scikit-Learn, MLlib e XGboost. I data scientists avranno comunque la possibilità di inserire manualmente nuovo codice nei linguaggi di programmazione più comunemente utilizzati nelle applicazioni di machine learning, come Python.
Dataiku è facilmente utilizzabile anche dagli utenti con meno competenze tecniche, offrendo una serie di strumenti facili e intuitivi di data visualization, con la possibilità di aggiungere ulteriori funzionalità attraverso plugin esterni. Le dashboard offrono una vista a 360 gradi per l’esplorazione dei dati e degli insights analitici mediante un’estesa varietà di mappe e grafici.
All’interno di Dataiku, il deployment dei modelli, ovvero la migrazione dal laboratorio di sviluppo all’ambiente di produzione, viene accelerato grazie alla possibilità di creare bundle del progetto attuale che può essere esportato e mandato live in pochi clic.
Infine la piattaforma proposta da Bnova aggiunge ulteriori elementi di controllo e governance sull’intero processo analitico. Grazie al modulo dedicato, è possibile monitorare le operazioni eseguite, risalendo ad esempio alla cronologia degli accessi e delle interrogazioni oppure verificando la correttezza e le performance dei modelli in azione.
Insomma, grazie alla ricca serie di funzionalità, Dataiku permette di eliminare la complessità di esecuzione dei processi analitici, offrendo una soluzione modulare e onnicomprensiva per la gestione end-to-end, dalla preparazione dei dataset alla visualizzazione degli insights tramite dashboard e report personalizzabili.