Si chiama MUSE e sta per MUltimodal Semantic Extraction, è un’analisi semantica combinata (multimodale) di immagini e testo che sfrutta le più avanzate tecnologie di intelligenza artificiale, nello specifico NLP – Natural Language Processing e Computer Vision. Un tipo di analisi molto avanzata che potrebbe assumere un ruolo di rilievo in ambito industriale (per esempio per la manutenzione predittiva) e, più in generale, per migliorare l’efficacia del business.

Immagine promozionale cta infografica intelligenza artificiale

Cos’è MUSE e cosa significa fare analisi semantica multimodale

MUSE è un progetto che BNova ha portato avanti congiuntamente con il Laboratorio di Linguistica Computazionale del Dipartimento di Filologia Letteratura e Linguistica dell’Università di Pisa; prevede l’analisi semantica automatica di materiali digitali multimediali utilizzando alcune delle tecniche più avanzate ed ormai mature dell’alveo dell’intelligenza artificiale: Natural Language Processing (NLP), Computer Vision (CV), che utilizzate congiuntamente tramite Advanced Analytics permette di estrarre informazione da testi e immagini e consente l’indicizzazione e il mining cross-modale.

Tecnicamente, l’analisi semantica è l’attività di assegnazione di un significato, l’attribuzione di un senso a qualcosa (in questo caso, un testo o un’immagine); sono diverse le tecnologie che, ad oggi, analizzano i testi e taggano le immagini, ma l’analisi semantica combinata, multimodale appunto, rappresenta la nuova frontiera applicativa di queste tecnologie perché, di fatto consente l’analisi integrata di informazioni complesse che tipicamente non possono essere analizzate con gli stessi strumenti.

Per esempio, se si guarda soltanto all’aspetto testuale, una parola come “baguette” potrebbe essere associata più probabilmente a del pane, ma se abbinata alla foto di un anello potrebbe assumere un significato completamente diverso, ovvero il taglio baguette di diamante.

Un framework per l’analisi semantica multimodale

Il progetto MUSE ha come obiettivo definire un nuovo framework tecnologico (e metodologico) per l’analisi semantica avanzata.

– La prima fase del progetto si è concentrata sull’analisi semantica di testi e di immagini utilizzando principalmente tag, didascalie e sottotitoli delle immagini stesse, come accennato attraverso le tecnologie di NLP (per l’analisi dei testi) e Computer Vision (per l’analisi delle immagini).

– La seconda fase ha come obiettivo sfruttare features estratte dalle immagini, combinarle con features distribuzionali estratte da dati testuali attraverso Multimodal Distributional Semantic Models (MDSM), utilizzando anche reti neurali e algoritmi di machine learning e deep learning per migliorare il processo.

Il framework di analisi semantica multimodale diventa così la base non solo per migliorare la qualità delle rappresentazioni semantiche, ma anche per collegare immagini e testi attraverso un processo di associazione tra rappresentazioni vettoriali (siano esse immagini o descrizioni/testi a “corredo” di esse).

Esempi di analisi semantica multimodale, alcune applicazioni

L’analisi semantica multimodale trova già oggi applicazione in diversi contesti, vediamo alcuni esempi pratici.

  • – Fraud detection in ambito assicurativo: attraverso il confronto tra immagini e perizie è possibile rilevare attraverso l’analisi avanzata dei dati qual è il valore medio dei danni, prendendo a confronto anche i dati di situazioni “analoghe”, per scovare quindi eventuali anomalie che possono condurre ad un tentativo di frode;
  • – Manutenzione predittiva in ambito industriale (manifatturiero, utility, telco, ecc.): l’analisi combinata di immagini e testi migliora le prestazioni delle analisi predittive ma può diventare uno strumento molto valido anche per la formazione del personale, anche in real-time durante gli interventi;
  • – Sanità: in questo caso l’analisi semantica multimodale diventa uno strumento di supporto ai medici per l’analisi dei referti, il cui confronto con altri documenti può facilitare il processo di diagnosi;
  • – Marketing e Social Media: in questo caso fare un’analisi combinata tra testi ed immagini migliora le prestazioni di sentiment analysis e brand reputation, ed apre la strada ad analisi cosiddette di community behavior con sistemi predittivi che possono fornire informazioni di valore anche ad altre business unit aziendali (vendite, ricerca e sviluppo, risorse umane, logistica e produzione, ecc.)

Uno dei primi ambiti di applicazione di MUSE, per esempio, va proprio in quest’ultima direzione, quella del Marketing e Social Media, con l’utilizzo delle analisi semantiche multimodali finalizzata a disambiguare il più possibile i messaggi di post su Instagram in modo da minimizzare l’influenza di elementi di difficile interpretazione (come per esempio l’ironia) partendo da due argomenti principali (Trenitalia e Alitalia) ed una serie di tag rilevanti per lo scopo.

Per scoprire MUSE e capire come funziona guarda il video di presentazione

VIdeo pillola Muse
ARGOMENTI CORRELATI
Categoria: INTELLIGENZA ARTIFICIALE
Concept di colleghi di frontie ad un computer che studiano gli algoritmi

Apprendimento supervisionato: come funziona ed esempi pratici

Il machine learning è una tecnica ombrello che comprende al momento oltre 100 algoritmi riconosciuti dalla comunità scientifica, ognuno caratterizzato… Leggi tutto

Concept di colleghi che osservano dati su cartella

Intelligenza artificiale e machine learning: differenze e utilizzi

Intelligenza artificiale (AI) e machine learning (ML) sono spesso trattate in maniera intercambiale, come fossero dei sinonimi tecnologici. In realtà,… Leggi tutto

Concept che richiama il machine learning e gli algoritmi. Immagine che raffigura un uomo che guarda in alto come osservando un algoritmo che in autonomia produce informazioni

Algoritmi di machine learning: come funzionano e quali sono

Il machine learning, o apprendimento automatico, è il subset dell’intelligenza artificiale in cui vengono utilizzati algoritmi per apprendere dai dati… Leggi tutto