logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03292023-181129


Tipo di tesi
Tesi di laurea magistrale
Autore
CASSESE, MARIA
URN
etd-03292023-181129
Titolo
Linguaggio e visione: un'analisi comparativa di modelli unimodali e multimodali in compiti di plausibilità semantica.
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Lenci, Alessandro
Parole chiave
  • semantic plausibility
  • generalized event knowledge
  • grounded cognition
  • multimodal semantics
  • masked language modeling
  • vision-and-language
Data inizio appello
13/04/2023
Consultabilità
Tesi non consultabile
Riassunto
I Large language models (LLMs) unimodali raggiungono prestazioni molto alte su molteplici
compiti linguistici, dai compiti generativi alla sentiment analysis e all’inferenza logica. Tuttavia, si rivelano limitati nell’intepretazione di aspetti del significato non direttamente riconducibili alla forma linguistica di un’espressione lessicale, ma che includono conoscenza
generalizzata sugli eventi del mondo reale (GEK).
Nella presente tesi, i modelli transformer testuali BERT e RoBERTa sono stati messi a
confronto con il modello transformer del linguaggio e della visione VisualBERT, partendo
dall’ipotesi secondo cui i limiti dei modelli unimodali possono essere superati estraendo informazione anche dalle immagini.
Per verificare questa ipotesi `e stato svolto un compito di riconoscimento dell’accettabilit`a
di coppie di frasi distinte per plausibilit`a, utilizzando come metrica la pseudo-log-likelihood
e ripetendo gli esperimenti su tre dataset che comprendono frasi distinte per plausibilit`a
(EventsAdapt e EventsRev) o per tipicalit`a (DTFit). Il modello multimodale ha dimostrato
avere valori di accuratezza in linea con gli altri modelli su tutti i compiti e maggiori sui dati
distinti per tipicalit`a del paziente, dello strumento e del tempo.
Inoltre, sul dataset pi`u piccolo (EventsRev) `e stato effettuato un esperimento ulteriore,
dando in input al modello VisualBERT immagini e testo. In questo caso le prestazioni
diminuiscono. Per cui si pu`o dedurre che, in un compito di riconoscimento dell’accettabilit`a
linguistica, misurata utilizzando la pseudo-log-likelihood (ossia quantificando la perplessit`a
o surprise del modello), aggiungendo informazione sulle immagini non si ha una variazione
significativa delle prestazioni a livello di accuratezza.
File