Si chiama MUSE e sta per MUltimodal Semantic Extraction, è un’analisi semantica combinata (multimodale) di immagini e testo che sfrutta le più avanzate tecnologie di intelligenza artificiale, nello specifico NLP – Natural Language Processing e Computer Vision. Un tipo di analisi molto avanzata che potrebbe assumere un ruolo di rilievo in ambito industriale (per esempio per la manutenzione predittiva) e, più in generale, per migliorare l’efficacia del business.

Cos’è MUSE e cosa significa fare analisi semantica multimodale

MUSE è un progetto che BNova ha portato avanti congiuntamente con il Laboratorio di Linguistica Computazionale del Dipartimento di Filologia Letteratura e Linguistica dell’Università di Pisa; prevede l’analisi semantica automatica di materiali digitali multimediali utilizzando alcune delle tecniche più avanzate ed ormai mature dell’alveo dell’intelligenza artificiale: Natural Language Processing (NLP), Computer Vision (CV), che utilizzate congiuntamente tramite Advanced Analytics permette di estrarre informazione da testi e immagini e consente l’indicizzazione e il mining cross-modale.

Tecnicamente, l’analisi semantica è l’attività di assegnazione di un significato, l’attribuzione di un senso a qualcosa (in questo caso, un testo o un’immagine); sono diverse le tecnologie che, ad oggi, analizzano i testi e taggano le immagini, ma l’analisi semantica combinata, multimodale appunto, rappresenta la nuova frontiera applicativa di queste tecnologie perché, di fatto consente l’analisi integrata di informazioni complesse che tipicamente non possono essere analizzate con gli stessi strumenti.

Per esempio, se si guarda soltanto all’aspetto testuale, una parola come “baguette” potrebbe essere associata più probabilmente a del pane, ma se abbinata alla foto di un anello potrebbe assumere un significato completamente diverso, ovvero il taglio baguette di diamante.

Un framework per l’analisi semantica multimodale

Il progetto MUSE ha come obiettivo definire un nuovo framework tecnologico (e metodologico) per l’analisi semantica avanzata.

– La prima fase del progetto si è concentrata sull’analisi semantica di testi e di immagini utilizzando principalmente tag, didascalie e sottotitoli delle immagini stesse, come accennato attraverso le tecnologie di NLP (per l’analisi dei testi) e Computer Vision (per l’analisi delle immagini).

– La seconda fase ha come obiettivo sfruttare features estratte dalle immagini, combinarle con features distribuzionali estratte da dati testuali attraverso Multimodal Distributional Semantic Models (MDSM), utilizzando anche reti neurali e algoritmi di machine learning e deep learning per migliorare il processo.

Il framework di analisi semantica multimodale diventa così la base non solo per migliorare la qualità delle rappresentazioni semantiche, ma anche per collegare immagini e testi attraverso un processo di associazione tra rappresentazioni vettoriali (siano esse immagini o descrizioni/testi a “corredo” di esse).

Esempi di analisi semantica multimodale, alcune applicazioni

L’analisi semantica multimodale trova già oggi applicazione in diversi contesti, vediamo alcuni esempi pratici.

  • – Fraud detection in ambito assicurativo: attraverso il confronto tra immagini e perizie è possibile rilevare attraverso l’analisi avanzata dei dati qual è il valore medio dei danni, prendendo a confronto anche i dati di situazioni “analoghe”, per scovare quindi eventuali anomalie che possono condurre ad un tentativo di frode;
  • – Manutenzione predittiva in ambito industriale (manifatturiero, utility, telco, ecc.): l’analisi combinata di immagini e testi migliora le prestazioni delle analisi predittive ma può diventare uno strumento molto valido anche per la formazione del personale, anche in real-time durante gli interventi;
  • – Sanità: in questo caso l’analisi semantica multimodale diventa uno strumento di supporto ai medici per l’analisi dei referti, il cui confronto con altri documenti può facilitare il processo di diagnosi;
  • – Marketing e Social Media: in questo caso fare un’analisi combinata tra testi ed immagini migliora le prestazioni di sentiment analysis e brand reputation, ed apre la strada ad analisi cosiddette di community behavior con sistemi predittivi che possono fornire informazioni di valore anche ad altre business unit aziendali (vendite, ricerca e sviluppo, risorse umane, logistica e produzione, ecc.)

Uno dei primi ambiti di applicazione di MUSE, per esempio, va proprio in quest’ultima direzione, quella del Marketing e Social Media, con l’utilizzo delle analisi semantiche multimodali finalizzata a disambiguare il più possibile i messaggi di post su Instagram in modo da minimizzare l’influenza di elementi di difficile interpretazione (come per esempio l’ironia) partendo da due argomenti principali (Trenitalia e Alitalia) ed una serie di tag rilevanti per lo scopo.

Per scoprire MUSE e capire come funziona guarda il video di presentazione

VIdeo pillola Muse
ARGOMENTI CORRELATI
Categoria: INTELLIGENZA ARTIFICIALE
Concept che rappresenta l'intelligenza artificiale spiegabile attraverso la connessione tra uomo o robot: una donna seduta alla scrivania che parla con un robot.

XAI – Cosa si intende per eXplainable Artificial Intelligence?

Parlare di Intelligenza Artificiale è ormai all’ordine del giorno. Gli ambiti di applicazione sono i più vari, si spazia dall’uso… Leggi tutto

Machine Learning - concept grafico per richiamare l'apprendimento automatico. Immagine che raffigura un cervello all'interno del quale avvengono connessioni: le macchine apprendo simulando le capacità umane

Cos’è il Machine Learning e perché è la nuova frontiera degli Analytics

Negli ultimi anni la scienza dei dati (data science) ha vissuto un periodo di grande fermento ed evoluzione, soprattutto grazie… Leggi tutto

Intelligenza Artificiale: concept grafico che richiama i deepfakes. Immagine che raffigura una mano che indica ingranaggi azzurri disegnati su sfondo blu

Il lato oscuro dell’AI: i deepfakes

Cosa sono le deepfakes? Perchè sono pericolose? Gli utenti hanno la percezione delle tracce che tutti lasciamo su web? Per… Leggi tutto