Si chiama MUSE e sta per MUltimodal Semantic Extraction, è un’analisi semantica combinata (multimodale) di immagini e testo che sfrutta le più avanzate tecnologie di intelligenza artificiale, nello specifico NLP – Natural Language Processing e Computer Vision. Un tipo di analisi molto avanzata che potrebbe assumere un ruolo di rilievo in ambito industriale (per esempio per la manutenzione predittiva) e, più in generale, per migliorare l’efficacia del business.

Cos’è MUSE e cosa significa fare analisi semantica multimodale

MUSE è un progetto che BNova ha portato avanti congiuntamente con il Laboratorio di Linguistica Computazionale del Dipartimento di Filologia Letteratura e Linguistica dell’Università di Pisa; prevede l’analisi semantica automatica di materiali digitali multimediali utilizzando alcune delle tecniche più avanzate ed ormai mature dell’alveo dell’intelligenza artificiale: Natural Language Processing (NLP), Computer Vision (CV), che utilizzate congiuntamente tramite Advanced Analytics permette di estrarre informazione da testi e immagini e consente l’indicizzazione e il mining cross-modale.

Tecnicamente, l’analisi semantica è l’attività di assegnazione di un significato, l’attribuzione di un senso a qualcosa (in questo caso, un testo o un’immagine); sono diverse le tecnologie che, ad oggi, analizzano i testi e taggano le immagini, ma l’analisi semantica combinata, multimodale appunto, rappresenta la nuova frontiera applicativa di queste tecnologie perché, di fatto consente l’analisi integrata di informazioni complesse che tipicamente non possono essere analizzate con gli stessi strumenti.

Per esempio, se si guarda soltanto all’aspetto testuale, una parola come “baguette” potrebbe essere associata più probabilmente a del pane, ma se abbinata alla foto di un anello potrebbe assumere un significato completamente diverso, ovvero il taglio baguette di diamante.

Un framework per l’analisi semantica multimodale

Il progetto MUSE ha come obiettivo definire un nuovo framework tecnologico (e metodologico) per l’analisi semantica avanzata.

– La prima fase del progetto si è concentrata sull’analisi semantica di testi e di immagini utilizzando principalmente tag, didascalie e sottotitoli delle immagini stesse, come accennato attraverso le tecnologie di NLP (per l’analisi dei testi) e Computer Vision (per l’analisi delle immagini).

– La seconda fase ha come obiettivo sfruttare features estratte dalle immagini, combinarle con features distribuzionali estratte da dati testuali attraverso Multimodal Distributional Semantic Models (MDSM), utilizzando anche reti neurali e algoritmi di machine learning e deep learning per migliorare il processo.

Il framework di analisi semantica multimodale diventa così la base non solo per migliorare la qualità delle rappresentazioni semantiche, ma anche per collegare immagini e testi attraverso un processo di associazione tra rappresentazioni vettoriali (siano esse immagini o descrizioni/testi a “corredo” di esse).

Esempi di analisi semantica multimodale, alcune applicazioni

L’analisi semantica multimodale trova già oggi applicazione in diversi contesti, vediamo alcuni esempi pratici.

  • – Fraud detection in ambito assicurativo: attraverso il confronto tra immagini e perizie è possibile rilevare attraverso l’analisi avanzata dei dati qual è il valore medio dei danni, prendendo a confronto anche i dati di situazioni “analoghe”, per scovare quindi eventuali anomalie che possono condurre ad un tentativo di frode;
  • – Manutenzione predittiva in ambito industriale (manifatturiero, utility, telco, ecc.): l’analisi combinata di immagini e testi migliora le prestazioni delle analisi predittive ma può diventare uno strumento molto valido anche per la formazione del personale, anche in real-time durante gli interventi;
  • – Sanità: in questo caso l’analisi semantica multimodale diventa uno strumento di supporto ai medici per l’analisi dei referti, il cui confronto con altri documenti può facilitare il processo di diagnosi;
  • – Marketing e Social Media: in questo caso fare un’analisi combinata tra testi ed immagini migliora le prestazioni di sentiment analysis e brand reputation, ed apre la strada ad analisi cosiddette di community behavior con sistemi predittivi che possono fornire informazioni di valore anche ad altre business unit aziendali (vendite, ricerca e sviluppo, risorse umane, logistica e produzione, ecc.)

Uno dei primi ambiti di applicazione di MUSE, per esempio, va proprio in quest’ultima direzione, quella del Marketing e Social Media, con l’utilizzo delle analisi semantiche multimodali finalizzata a disambiguare il più possibile i messaggi di post su Instagram in modo da minimizzare l’influenza di elementi di difficile interpretazione (come per esempio l’ironia) partendo da due argomenti principali (Trenitalia e Alitalia) ed una serie di tag rilevanti per lo scopo.

Per scoprire MUSE e capire come funziona guarda il video di presentazione

VIdeo pillola Muse
ARGOMENTI CORRELATI
Categoria: INTELLIGENZA ARTIFICIALE
Persona che osserva e indica un monitor su cui sono riportate diverse linee di codice

Deep learning: cos’è e quali le applicazioni 

Nell’ampio vocabolario dell’intelligenza artificiale c’è una tecnica sempre più diffusa che promette di affrontare i problemi più complessi: il deep… Leggi tutto

Machine learning e deep learning. Un uomo e una donna seduti ad una scrivania che guardano lo stesso schermo del pc.

Machine learning e deep learning: quali le differenze

Machine learning (ML) e deep learning (DL) sono termini sempre più ricorrenti nel vocabolario tecnologico, oltre ad essere sempre più… Leggi tutto

intelligenza artificiale debole e forte - due persone sedute ad una scrivania lavorano insieme guardando un tablet

Le differenze tra intelligenza artificiale debole e forte

L’intelligenza artificiale è una tecnologia ormai entrata stabilmente a far parte della nostra quotidianità, dai semplici assistenti domestici ai più… Leggi tutto