Se la Data Science fosse un luogo sarebbe Delfi e le figure attorno ad essa sarebbero degli oracoli; infallibili autorità i cui responsi sono ineccepibili.
Luke Posey, sul blog “Towards Data Science”, in un articolo del 28 Aprile si è divertito a postare alcuni annunci di lavoro finalizzati a reclutare una delle tante figure mitologiche della Data Science: il Machine Learning Engineer. I requisiti richiesti sono quanto di più variegato possibile: Phd in Matematica, Informatica perché no in Fisica e una imprescindibile conoscenza di Python, R, C, C++, Sql e delle tecniche di Machine Learning, tutte perché d’altra parte sei un oracolo! In alcuni casi basta la laurea, però devi essere anche un “software developer”, conoscere tutto lo scibile circa il Natural Language Processing ma se sei fortunato quello che davvero conta è saper programmare in modo EFFICIENTE. Non so se Luke Posey scrivesse tra il serio e il faceto quando ha concluso che tra non molto, più o meno tutti sapremo occuparci, almeno a livello base, di Machine Learning ma quel che è certo che noi siamo più in linea con l’opinione del nostro partner Dataiku (https://blog.dataiku.com/machine-learning-engineers-wont-be-replaced-anytime-soon) sul fatto che non vi sarà una generale accessibilità alle conoscenze specifiche del ML, ma si andrà, piuttosto, verso la conoscenza di ciò che realmente serve conoscere per poter lavorare quotidianamente con dati ed algoritmi.

 

COSA E’ DAVVERO LA SCIENZA DEI DATI?

Si sente sempre più parlare di Big Data come il tesoro del nuovo millennio, in verità i dati esistono da quando è nato l’uomo: dati anagrafici, dati di mobilità, dati di business, dati medici, potremmo continuare all’infinito. Quello che è cambiato è la fruibilità dei dati e la consapevolezza circa il “mondo dei Big Data”. Non c’è niente di magico in tutto questo, la creazione e l’esistenza di un dato fa banalmente parte della storia dell’umanità, sbalorditivo è quello che fa la data science: estrae valore dai dati a vantaggio di chi ne fruisce, che scritta così sembra semplice ma è questo il vero tesoro del nuovo millennio! L’estrazione di valore dai dati viene fatta attraverso processi tecnici scientifici che banalmente vengono identificati nei soli algoritmi, ma dietro ad ogni algoritmo c’è una logica che mutua da fondamenti di statistica, economia, medicina e non prescinde da aspetti quali, una su tutte, la legalità. In un contesto simile è chiaro che il data scientist non può essere un mostro a più teste che tutto fa e tutto sa. Il data scientist è un team composto da persone provenienti da settori multidisciplinari. Ecco la vera magia! La multidisciplinarietà. Puoi avere il più bravo programmatore del mondo e se sei fortunato anche conoscitore di tutte le tecniche di ML a cui fare ricorso sapendole impiegare nel contesto giusto, ma devi essere davvero molto fortunato se sarà anche in grado di comunicare i risultati dell’analisi all’esterno, magari con un bel format, usando grafiche accattivanti. Ah! tutto questo lavoro va infine fatto perché dietro c’è un’idea di business: prodotto o servizio da offrire al cliente, e magari c’è chi pensa che questi possano essere individuati dal data scientist (che è un po’ anche imprenditore!). Per tutte queste ragioni, quando si decide di lavorare con i dati, bisogna:

  • Individuare, quali sono gli obiettivi aziendali di breve periodo (dai 9 ai 24 mesi)
  • Individuare tutte le figure necessarie per realizzare gli obiettivi, senza pensare che il solo titolo accademico possa essere garanzia di onniscienza.
  • Non limitarsi a richiedere l’imprescindibile conoscenza di Python o di linguaggi specifici, adottarlo come elemento preferenziale di valutazione: una risorsa che ci sa fare con gli algoritmi molto probabilmente saprà interfacciarsi con linguaggi diversi. Non esiste un linguaggio migliore di un altro, esiste un linguaggio più adatto a determinati ambiti applicativi.
  • Essere flessibili e capire la distinzione tra strumenti e programmazione. Imparare degli strumenti è di sicuro più semplice rispetto ad imparare ad implementare algoritmi. E’molto improbabile che una persona che non ha mai programmato lo impari a fare in 10 giorni, è più probabile che una persona smart impari ad usare Google Analytics in 10 giorni se è quello lo strumento di cui desiderate avvalervi.
  • Dare importanza alla multidisciplinarietà: è importante gestire il dato sin dall’inizio, saperlo “lavorare”, saperlo sfruttare, interpretare e saper trasmettere i risultati dell’analisi attraverso una efficace comunicazione e accattivante data visualization. Sul nostro blog potrete trovare molti articoli su questi step.

Siate flessibili ma concreti! Ricordate flessibilità genera flessibilità, anche nell’apprendimento (è auspicabile che persone volitive trasmettano e ben recepiscano il poliedrico know how), ma non dà vita a mostri a più teste…o oracoli!