Il machine learning (apprendimento automatico) è una delle discipline dell’intelligenza artificiale più diffuse, grazie alla sua capacità di analizzare i dati per cercare soluzioni sempre più efficaci ad un problema noto. La scienza dei dati ha compiuto enormi progressi nella definizione dei modelli di machine learning. Nonostante tutto, rimangono più che mai attuali i problemi legati all’overfitting e all’underfitting, due limiti nella modellazione che possono incidere in termini negativi sul successo delle applicazioni. Vediamo in cosa consistono e come sia possibile gestirli, limitandone gli impatti negativi per il business.

Prima di iniziare: cos’è un modello

Un modello di machine learning è una rappresentazione matematica che elabora un output a partire dai dati di addestramento (input). In altri termini, i modelli di apprendimento automatico associano gli input agli output del data set elaborato.
Nell’ambito del machine learning esistono vari modelli, sulla base della tipologia di training che viene effettuato. In particolare, è possibile distinguere tra apprendimento supervisionato e apprendimento non supervisionato.
Nel contesto dell’apprendimento supervisionato, il modello di machine learning ha il compito di individuare le migliori dipendenze, le più funzionali, tra i valori di input e output, entrambi forniti nel data set iniziale.
Tra i tipi di modello di apprendimento supervisionato si distinguono il modello di regressione e il modello di classificazione.
L’apprendimento non supervisionato è invece una tecnica di apprendimento automatico in cui vengono forniti soltanto i valori di input, che il modello riclassifica ed organizza sulla base delle correlazioni individuate, per effettuare previsioni per gli input successivi. Non è vi è infatti una relazione definita a priori tra un valore di input e uno di output. È il modello stesso a lavorare nella definizione degli output.
Tra i tipi di modello di apprendimento non supervisionato si distinguono: clustering, regola di associazione, riduzione dimensionale e deep learning.

Cos’è l’overfitting nel machine learning

L’overfitting descrive, alla lettera, un adattamento eccessivo del modello di machine learning ai dati di addestramento. L’overfitting rappresenta una delle principali cause di insuccesso dell’apprendimento automatico, nonché una delle principali sfide che i data scientist sono chiamati ad affrontare per definire modelli di apprendimento realmente funzionali agli obiettivi da raggiungere.

Una causa frequente di overfitting di un modello di machine learning si verifica quando i dati di addestramento sono talmente accurati che il modello tende ad adattarsi alle sue caratteristiche, senza individuare quei pattern che dovrebbero consentirgli di apprendere progressivamente dai nuovi set forniti.

In altri termini, un modello caratterizzato da un problema di overfitting manifesta una evidente fatica nel generalizzare i dati, adattandosi appunto ai soli pattern individuati nel training set. Ciò si traduce inevitabilmente in una scarsa capacità di adattamento nei confronti dei dati che gli vengono successivamente forniti. Il problema non risiede tanto nella forma del modello, che potrebbe risultare correttamente addestrato, ma nella sua limitata funzionalità, da cui può dipendere un livello di performance insoddisfacente, sotto vari punti di vista.

Va in ogni caso sottolineato come tutti i modelli di apprendimento automatico tendano a sviluppare una condizione di overfitting, quale naturale tendenza ad un addestramento di entità superiore rispetto a quello che sarebbe strettamente richiesto. In senso inverso, come vedremo, si riscontra invece il fenomeno opposto, definito underfitting.

Limitare l’overfitting

Se l’overfitting rappresenta una condizione quasi fisiologica per un modello di machine learning, molto complessa da risolvere del tutto, l’esperienza nella modellazione offre agli specialisti gli strumenti necessari per limitare il problema e contenerlo affinché non generi effetti penalizzanti per il business.

È evidente come un modello di machine learning richieda un numero adeguato di bias statistici per risultare funzionale sia in fase di test che in fase di validazione. Un modello dotato di pochi bias tende a sviluppare una condizione di overfitting, così come un’elevata presenza di varianti.

Saper bilanciare in modo efficace i bias e le varianti è probabilmente la qualità più importante di un professionista dei dati, per garantire il successo del modello nei contesti in cui è prevista la sua applicazione.

Per limitare l’overfitting è infatti decisiva l’esperienza pratica, unita ad una serie di best practice, che partono dall’impiego delle tecniche di machine learning per testare il modello stesso, soprattutto per avvalersi della straordinaria capacità nell’elaborazione dei dati che lo caratterizza.

Un’altra tecnica spesso utilizzata consiste nel disporre un data set di controllo con cui testare il modello di machine learning, ai fini di verificare la sua capacità di generalizzazione. In tal senso, appare altrimenti utile sviluppare una funzione di oblio che consenta al modello di apprendimento automatico di dimenticare le parti troppo specifiche, da cui potrebbe derivare un adattamento eccessivo del modello, favorendo invece un naturale approccio alla generalizzazione dei dati.

Cos’è l’underfitting nel machine learning

L’underfitting di un modello di machine learning descrive una condizione di incapacità nel cogliere la relazione tra le variabili di input e output in maniera sufficientemente accurata, con la concreta possibilità che vengano generati tassi di errore elevati. In altri termini, si tratta del problema inverso rispetto all’overfitting.

Le cause più frequenti, quando si riscontra una condizione di underfitting, si verificano quando il modello di apprendimento automatico è troppo semplice rispetto alla natura del problema, ed avrebbe probabilmente bisogno di più tempo per essere addestrato, oltre a disporre di un set di dati di maggior qualità e varietà nell’input. Un modello di machine learning che soffre di gravi problemi di underfitting si rivela incapace di generalizzare i nuovi dati forniti per l’addestramento, risultando poco performante nel classificare o svolgere la propria attività predittiva sui dati analizzati. Rispetto al caso dell’overfitting, l’underfitting appare più semplice da identificare e si riscontra in presenza di bias elevato e varianza ridotta.

Overfitting e Underfitting

La risoluzione dei problemi legati all’overfitting e all’underfitting di un modello di machine learning appare di vitale importanza in ambito di business, per garantire alle imprese risultati all’altezza delle aspettative nelle attività di business intelligence e business analytics.

Un modello incapace di generalizzare i dati in maniera adeguata, oltre a risultare del tutto inutile, rischierebbe di produrre effetti fuorvianti nel supporto decisionale richiesto alle applicazioni basate sul machine learning, in quanto gli insight non sarebbero attendibili in sede previsionale.

Un modello overfitted o underfitted può costare alle aziende una notevole perdita di tempo e denaro, a discapito dell’efficienza dei processi fondamentali per il business. Un livello di performance non adeguato rispetto alle aspettative genera inoltre una naturale sfiducia nelle tecnologie basate sull’apprendimento automatico, scoraggiando nel peggiore dei casi la loro progressiva implementazione nelle attività aziendali. Un lusso che nell’era dei dati nessuno può più permettersi è rischiare di generare contraccolpi negativi in termini di innovazione e capacità di creare vantaggio competitivo grazie alla valorizzazione dei dati di cui l’azienda dispone.

Le strategie per limitare l’overfitting e l’underfitting non possono pertanto limitarsi alla pura scienza dei dati, ma devono prendere in considerazione tutti quegli aspetti legati alla cultura del dato in senso più ampio, per risultare rappresentativi di un contesto data-driven, come quello delle aziende attualmente impegnate nel loro percorso di trasformazione digitale.

Nell’ottica di realizzare modelli realmente efficaci e rappresentativi del contesto, le varie linee di business dovrebbero costantemente collaborare con il team di data science che si occupa della modellazione e dell’addestramento dei sistemi di machine learning. Lo sviluppo di una naturale sinergia nei confronti del dato aiuta tutte le linee di business a lavorare meglio, e tale qualità parte dall’attitudine tra le parti nel comunicare tra loro. I data scientist possono fare tesoro dei feedback di utilizzo delle varie applicazioni da parte di quegli utenti finali che, dal canto loro, possono descrivere e motivare in maniera dettagliata le loro esigenze, favorendo ad esempio la selezione dei dati da utilizzare per l’addestramento dei modelli.

ARGOMENTI CORRELATI
Categoria: INTELLIGENZA ARTIFICIALE

Dati sintetici: cosa sono, tipologie e quando utilizzarli

L’intelligenza artificiale dispone di una serie di tecniche in grado di rivoluzionare le attività in tantissimi settori, sia in ambito… Leggi tutto

Industria 4.0 e strategie di manutenzione: le differenze tra manutenzione reattiva, preventiva e predittiva. Immagine che raffigura due chiavi inglesi posate sulla tastiera di un computer.

Manutenzione nell’Industria 4.0: cosa cambia 

L’Industria 4.0 ha ridefinito vari aspetti della fabbrica tradizionale, non soltanto quelli tipicamente legati alla produzione, coinvolgendo tutte le fasi… Leggi tutto

XAI o eXplainable AI: cos’è e come funziona

Le grandi aspettative create sull’intelligenza artificiale hanno spinto le aziende ad interessarsi alle sue applicazioni, per capire come utilizzarle per… Leggi tutto