L’intelligenza artificiale dispone di una serie di tecniche in grado di rivoluzionare le attività in tantissimi settori, sia in ambito enterprise che nelle applicazioni tipicamente consumer. Per alimentare il proprio operato, gli algoritmi di machine learning necessitano di dati il più possibile coerenti con lo scenario che si intende rappresentare. 

Nell’ambito dell’apprendimento automatico, esistono vari tipi di dati, scelti dagli specialisti per supportare una grande varietà di applicazioni. Reperire data set adeguati rappresenta pertanto una sfida costante per quanto riguarda il training dei modelli di machine learning. I dati reali risultano spesso di difficile reperibilità, o molto onerosi in termini di approvvigionamento, senza trascurare gli aspetti legati alla conformità con le normative vigenti in materia di protezione dei dati personali, che prevedono esplicitamente la loro anonimizzazione. 

In questo contesto, assumono una crescente rilevanza i dati sintetici. Da un lato costituiscono una valida soluzione per la disponibilità di dati di qualità per la business analytics, ma al tempo stesso comportano una serie di criticità, sia sul piano puramente tecnologico, che per quanto riguarda questioni di carattere etico e normativo.

Cosa sono i dati sintetici?

I dati sintetici sono dati creati artificialmente da appositi algoritmi, sulla falsariga della controparte che abitualmente proviene dal mondo reale. Vengono utilizzati in vari contesti, per creare data set utilizzati nel training dei modelli di machine learning, oltre a varie operazioni di test e validazione dei risultati previsti nell’ambito della data science. 

L’esigenza dei dati sintetici deriva dalla difficoltà oggettiva, in molte situazioni, di reperire e disporre di dati reali. Rispetto a questi ultimi, l’utilizzo dei data set risulta inoltre più conveniente e sostenibile dal punto di vista economico e in termini di risparmio di tempo nella collezione del data set. Dal punto di vista funzionale, la natura artificiale dei dati sintetici consente di soddisfare esigenze specifiche in maniera rapida ed efficiente, sopperendo ai limiti di disponibilità e alle distorsioni che solitamente contraddistinguono l’impiego dei dati reali. 

La prima comparsa dei dati sintetici risale agli anni Settanta, quando l’elaborazione informatica ha iniziato a necessitare in misura crescente di dati per soddisfare le proprie funzioni. Benché i vantaggi pratici e concettuali derivanti dall’impiego dei dati sintetici fossero chiari sin dal primo momento, la loro effettiva implementazione ha richiesto molti anni, per via dei limiti computazionali che ne frenavano la generazione. 

Il punto di svolta è arrivato nel 2012, nel contesto della ImageNet competition, quando un gruppo di ricercatori guidato da Geoff Hinton dimostrò come, grazie ai dati sintetici, fosse possibile effettuare il training di una rete neurale artificiale per classificare le immagini, con risultati allora sorprendenti in fatto di rapidità ed accuratezza. Da quel giorno, i dati sintetici sono diventati una realtà di peso nel contesto della data science, come conferma la crescente attività di ricerca ed implementazione che li vede coinvolti. 

Secondo le stime di Gartner, entro il 2024, il 60% dei dati impiegati nell’ambito della business analytics dovrebbe essere prodotto in maniera artificiale. Tale indice confermerebbe la rilevanza economica, oltre che funzionale, dei dati sintetici nel grande business dell’intelligenza artificiale, che li vede coinvolti in primo luogo nel training delle reti neurali e dei modelli di machine learning, dove sono necessari data set di notevole qualità, onde evitare fenomeni di bias ed altre problematiche che derivano da informazioni incomplete o fuorvianti rispetto al contesto di riferimento. Grazie ai dati sintetici, le aziende possono colmare le lacune che caratterizzano i data set reali, contenendo tempi e costi necessari per il loro approvvigionamento. 

Le diverse tipologie 

Nelle loro attività, i data scientist impiegano differenti tipologie di dati sintetici, a loro volta classificati secondo vari criteri, a titolo puramente esemplificativo riportiamo: 

  • Media data: contenuti relativi ad immagini, audio e video tipici dei contesti multimediali che caratterizzano i dati non strutturati. Vengono utilizzati dagli algoritmi di image processing per generare immagini sintetiche, tra cui i celebri deepfake. 
  • Text data: contenuti di testo tipicamente utilizzate da applicazioni chatbot, traduttori simultanei ed altre interfacce conversazionali basate su tecniche NLP (natural language processing). In questo ambito rientrano anche i dati sintetici utilizzati per le applicazioni di sentiment analysis. 
  • Dati strutturati: dati strutturati in forma tabellare che vengono solitamente utilizzati nel contesto della business analytics e nel training dei modelli di machine learning. 
  • Dati non strutturati: media data ed altri dati che vengono comunemente utilizzati in moltissime applicazioni, anche in tempo reale, tra cui la computer vision, la speech recognition e diverse tecnologie legate ai sistemi di guida autonoma, per supportare la navigazione automatica. 
  • Dati finanziari: vengono ampiamente utilizzati nell’ambito del rilevamento delle frodi, della gestione del rischio e nella valutazione delle richieste di finanziamento. 
  • Dati di produzione: tipici delle attività di manutenzione predittiva e controllo di qualità nel contesto della manifattura.

Quando utilizzare i dati sintetici

I dati sintetici vengono utilizzati dai data scientist in vari contesti applicativi, per soddisfare esigenze di testing, training e conformità ai requisiti di privacy.

Test e validazione 

I dati sintetici costituiscono una valida alternativa ai dati reali per il test e la validazione nella maggior parte delle applicazioni data-driven, soprattutto nell’ambito della sviluppo software. Rispetto ai dati reali, quelli generati artificialmente risultano spesso decisamente più efficaci in termini di flessibilità e scalabilità. 

Training dei modelli di machine learning e delle reti neurali artificiali 

Il training dei modelli di machine learning e delle reti neurali artificiali richiede data set di grandi dimensioni, spesso difficili da costruire ricorrendo ai soli dati reali a disposizione. I synthetic training data offrono pertanto una validissima alternativa e un risorsa complementare sotto vari aspetti, garantendo performance di prim’ordine. 

I dati sintetici consentono infatti di ridurre i bias rispetto al training effettuato sulla base dei dati reali e la capacità di impostare le proprietà alla base della loro generazione consente di spiegarne in maniera dettagliata i propositi. 

Questo aspetto non è affatto secondario in un contesto in cui i dubbi etici in merito all’impiego delle tecnologie basate sull’intelligenza artificiale contribuiscono ad una rilevanza sempre maggiore per una disciplina come la eXplainable artificial intelligence (XAI), il cui fine risiede proprio nello spiegare come i modelli di machine learning giungono a determinate conclusioni. 

Ciò appare in particolar modo significativo in tutti quei contesti dove la AI è chiamata ad effettuare, in tutto o in parte, le decisioni tradizionalmente prese dall’uomo. I dati sintetici, per design, possono pertanto limitare fenomeni legati al pregiudizio, orientando l’attività della AI verso criteri decisionali eticamente condivisi. 

I dati sintetici costituiscono inoltre una valida risorsa per completare i data set basati sulle informazioni provenienti dal mondo reale, migliorandone complessivamente la qualità complessiva e il livello di efficienza delle analisi. 

Conformità alle normative sulla privacy 

I dati sintetici vengono frequentemente utilizzati per tutte quelle applicazioni che, sulla base delle normative vigenti in materia di privacy e protezione dei dati personali (es. GDPR), richiedono espressamente l’impiego di informazioni di carattere anonimo e non riconducibile ad una identità specifica. 

In altri termini, i dati sintetici si sostituiscono ai dati sensibili per consentire alle organizzazioni di implementare attività di training, testing e validazione senza compromettere le disposizioni in materia di privacy. 

In tal senso, un esempio di utilizzo dei dati sintetici è costituito dal settore healthcare, quando si tratta di dover gestire e analizzare dati che, nella situazione reale, sarebbero a tutti gli effetti sensibili. Grazie ai dati sintetici ottenuti sulla base di quelli reali, i ricercatori possono ad esempio estrarre le informazioni di cui necessitano, in forma assolutamente anonima, senza compromettere la privacy delle persone. Anche in questo caso, i dati sintetici comportano evidenti vantaggi in termini di tempi e costi rispetto alle tradizionali procedure di data masking effettuate sulle informazioni provenienti dai pazienti reali. 

ARGOMENTI CORRELATI
Categoria: INTELLIGENZA ARTIFICIALE
OVerfitting e Underfitting cosa sono e come gestirli

Overfitting e Underfitting: cosa sono e come gestirli

Il machine learning (apprendimento automatico) è una delle discipline dell’intelligenza artificiale più diffuse, grazie alla sua capacità di analizzare i… Leggi tutto

Industria 4.0 e strategie di manutenzione: le differenze tra manutenzione reattiva, preventiva e predittiva. Immagine che raffigura due chiavi inglesi posate sulla tastiera di un computer.

Manutenzione nell’Industria 4.0: cosa cambia 

L’Industria 4.0 ha ridefinito vari aspetti della fabbrica tradizionale, non soltanto quelli tipicamente legati alla produzione, coinvolgendo tutte le fasi… Leggi tutto

XAI o eXplainable AI: cos’è e come funziona

Le grandi aspettative create sull’intelligenza artificiale hanno spinto le aziende ad interessarsi alle sue applicazioni, per capire come utilizzarle per… Leggi tutto