BNova insieme all’Universita’ di Pisa sviluppa MATE, sistema che permette di interrogare i “Big Data” attraverso il linguaggio naturale.
Il progetto MATE (Meta lAyer between naTural language and databasE) nasce dalla fruttuosa collaborazione tra il Dipartimento di Filologia, Letteratura e Linguistica dell’Università di Pisa e BNova. Il lavoro sinergico dei due enti, la cui collaborazione è ormai decennale, ha portato negli anni alla realizzazione di progetti sempre più innovativi, che hanno aperto il campo a loro volta a importanti sviluppi e applicazioni tecnologiche e a nuove interessanti possibilità nell’area dell’ Artificial Intelligence for Business Intelligence. MATE è nato nell’ambito del progetto biennale “Text2Query: Modelli di Deep Learning per interrogare i Big Data con il linguaggio naturale”, finanziato dalla Regione Toscana ed è inquadrato all’interno di una consolidata linea di ricerca internazionale nota come Natural Language Interface to Database (NLID), che utilizza modelli di Intelligenza Artificiale e apprendimento automatico del linguaggio per semplificare l’accesso alle banche dati strutturate. Il progetto ha portato anche alla realizzazione di un articolo scientifico presentato alla 21° edizione della conferenza internazionale delle associazioni italiane per l’intelligenza artificiale organizzata da AIxIA (Associazione Italiana per l’Intelligenza Artificiale).
Sistemi di NLID per abilitare la cultura Data Driven in azienda
Negli ultimi anni i dati sono diventati sempre più un asset fondamentale delle aziende per sviluppare diversi tipi di analitiche su cui basare le proprie strategie di business. A questo si aggiunge un aumento vertiginoso della produzione delle informazioni che sempre più frequentemente vengono archiviate all’interno dei sistemi aziendali. Spesso però l’accesso diretto a queste informazioni è precluso a molti utenti che non hanno il “know-how” necessario per interagire produttivamente con le basi di dati. Per interrogare un database ed estrarre informazioni utili è necessario infatti avere competenze tecniche, relative ad esempio alla composizione specifica della base di dati e al linguaggio formale di interrogazione (come SQL), che spesso sono prerogativa di poche persone in azienda. Ciò crea una vera e propria “barriera architettonica” virtuale che limita, a vari livelli, il potenziale dell’analisi all’interno dell’azienda e può obbligare ad utilizzare analisi predeterminate che producono risultati non ottimali per comprendere i dati disponibili.
Questo è anche uno dei problemi principali che ostacola la diffusione di un approccio data driven in azienda e della tanto discussa data democratization che rappresenta uno dei fattori abilitanti della diffusione della cultura del dato, o meglio dell’abitudine a prendere decisioni basate sui dati e non sulla sentiment individuale.
Proprio in questa direzione si colloca l’aumento dell’interesse da parte della ricerca che mira a sviluppare meccanismi di interrogazione flessibile dei dati che consentano agli utenti di esprimere le loro richieste ( in linguaggio naturale) e recuperare agevolmente le informazioni utili. In genere, in questi casi, si utilizzano architetture basate su reti neurali in cui i modelli linguistici pre-addestrati vengono utilizzati per interpretare le query espresse in linguaggio naturale. Tali sistemi sono noti in letteratura come modelli seq2sql (Zhong et al., 2017), poiché si basano su architetture simili a quelle utilizzate nei sistemi seq2seq per la traduzione automatica (Shawn et al. 2018, Whang et al. 2018), considerando il linguaggio naturale e il linguaggio di interrogazione come due “lingue” a tutti gli effetti. Questo approccio è possibile anche grazie alla disponibilità di dataset paralleli in linguaggio naturale-SQL, come WikiSQL (Zhong et al. 2017).
Limiti dei sistemi tradizionali
Tuttavia, se è vero che questi sistemi presentano prestazioni ottimali sui dataset di riferimento, va anche considerato che tali modelli di apprendimento automatico si basano spesso su coppie di lingue specifiche (ad esempio, dall’inglese all’SQL), limitando così la loro portabilità immediata a linguaggi differenti, sia naturali che di interrogazione. Anche le informazioni sullo schema del database di destinazione specifico devono essere codificate direttamente dal modello. Nonostante i risultati ottimali su dataset specifici, tali sistemi risultano quindi fondamentalmente limitati negli scenari del mondo reale.
MATE: cos’è, a cosa serve e i vantaggi
L’idea alla base di MATE parte dal Natural Language Understanding (NLU), ossia dall’elaborazione automatica del messaggio dell’utente espresso sotto forma di testo, al fine di rendere tale rappresentazione testuale traducibile in una query strutturata. Così facendo diventa possibile per l’utente accedere facilmente ad informazioni contenute all’interno di un database senza dover usare linguaggi di interrogazione formali, ed ottenere così analisi di sintesi rispondenti alle richieste di utenti di diverso tipo. L’idea è che MATE rappresenti un ponte tra le domande degli utenti e i database, utilizzando tecniche di Intelligenza Artificiale applicata al linguaggio.
I vantaggi di MATE rispetto alle soluzioni tradizionali
Rispetto alle attuali soluzioni proposte in letteratura, MATE presenta diversi vantaggi, primo fra tutti quello di essere indipendente dai domini tematici e dal linguaggio formale utilizzato. Questo poiché la parte di apprendimento del modello avviene direttamente all’interno del modulo di Language Understanding, che individua nel messaggio dell’utente gli elementi informativi più rilevanti per l’interrogazione del database, e quindi per la traduzione in un linguaggio più formale. Questo significa che il modello sviluppato può essere applicato non solo all’italiano ma anche ad altre lingue in modo semplice e veloce, e non solo; MATE può essere utilizzato e adattato a domini diversi e quindi adoperato in aziende appartenenti ai più svariati settori.
Nello specifico, MATE è stato sviluppato tramite RASA, un framework open source di apprendimento automatico, e successivamente integrato all’interno del chatbot di NIKY, la piattaforma di customer analytics avanzate di BNova (cos’è Niky), che utilizza modelli di intelligenza artificiale per migliorare la customer experience e semplificare le interazioni tra utenti e database. Grazie all’integrazione tra il chatbot di NIKY e MATE è possibile per l’utente effettuare una richiesta via chat (per esempio, chiedendo “quali sono stati i prodotti più venduti del 2022”) e, sempre tramite il chatbot, visualizzare la risposta del sistema sia sotto forma di testo, sia sotto forma di grafico che riproduce l’esito della ricerca. Nel caso della domanda di prima (“quali sono stati i prodotti più venduti del 2022?”), il sistema restituirà ad esempio un grafico a barre in cui sono indicati i nomi dei diversi prodotti maggiormente venduti durante l’anno.
Vantaggi competitivi di MATE e dei sistemi NLID in generale
Nel panorama attuale, i sistemi NLID come MATE, possono portare diversi vantaggi in ambito business. Proviamo ad individuarne alcuni:
approccio data driven: sviluppare un approccio data driven significa mettere a disposizione dell’intera organizzazione la conoscenza che deriva dall’analisi dei dati, evitando la loro strutturazione in silos. MATE agevola questo processo con un approccio bottom up: si tratta di una tecnologia abilitante alla diffusione della cultura del dato dal basso, non richiedendo elaborazioni specifiche, ma fornendo semplicemente la possibilità di interrogare il sistema con il linguaggio naturale.
democratizzazione dell’accesso ai dati: la democratizzazione del dato consiste nel rendere un’informazione digitale accessibile a qualunque utente finale. L’obiettivo è pertanto quello di consentire anche ai non specialisti di collezionare e analizzare i dati in un contesto il più possibile autonomo, che non richieda un costante supporto dedicato da parte dei professionisti dei dati. MATE, fa proprio questo: permette anche agli utenti che non hanno conoscenze tecniche, di andare a prendere le informazioni là dove sono archiviate rendendoli autonomi nei processi di analisi.
migliore conoscenza del mercato di riferimento: nel mondo del business la possibilità di ricorrere a strumenti ulteriori come MATE, consente di ampliare le conoscenze sia del mercato di riferimento, sia degli scenari futuri, permettendo all’azienda di mantenere una posizione competitiva.
Abbiamo realizzato anche un’intervista ad alcuni dei protagonisti del progetto MATE. Eccola: