Tesi etd-03292023-181129

Tipo di tesi

Tesi di laurea magistrale

Autore

CASSESE, MARIA

URN

etd-03292023-181129

Titolo

Linguaggio e visione: un'analisi comparativa di modelli unimodali e multimodali in compiti di plausibilità semantica.

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Relatori

relatore Lenci, Alessandro

Parole chiave

generalized event knowledge
grounded cognition
masked language modeling
multimodal semantics
semantic plausibility
vision-and-language

Data inizio appello

13/04/2023

Consultabilità

Tesi non consultabile

Riassunto

I Large language models (LLMs) unimodali raggiungono prestazioni molto alte su molteplici
compiti linguistici, dai compiti generativi alla sentiment analysis e all’inferenza logica. Tuttavia, si rivelano limitati nell’intepretazione di aspetti del significato non direttamente riconducibili alla forma linguistica di un’espressione lessicale, ma che includono conoscenza
generalizzata sugli eventi del mondo reale (GEK).
Nella presente tesi, i modelli transformer testuali BERT e RoBERTa sono stati messi a
confronto con il modello transformer del linguaggio e della visione VisualBERT, partendo
dall’ipotesi secondo cui i limiti dei modelli unimodali possono essere superati estraendo informazione anche dalle immagini.
Per verificare questa ipotesi `e stato svolto un compito di riconoscimento dell’accettabilit`a
di coppie di frasi distinte per plausibilit`a, utilizzando come metrica la pseudo-log-likelihood
e ripetendo gli esperimenti su tre dataset che comprendono frasi distinte per plausibilit`a
(EventsAdapt e EventsRev) o per tipicalit`a (DTFit). Il modello multimodale ha dimostrato
avere valori di accuratezza in linea con gli altri modelli su tutti i compiti e maggiori sui dati
distinti per tipicalit`a del paziente, dello strumento e del tempo.
Inoltre, sul dataset pi`u piccolo (EventsRev) `e stato effettuato un esperimento ulteriore,
dando in input al modello VisualBERT immagini e testo. In questo caso le prestazioni
diminuiscono. Per cui si pu`o dedurre che, in un compito di riconoscimento dell’accettabilit`a
linguistica, misurata utilizzando la pseudo-log-likelihood (ossia quantificando la perplessit`a
o surprise del modello), aggiungendo informazione sulle immagini non si ha una variazione
significativa delle prestazioni a livello di accuratezza.

File

Nome file	Dimensione
Tesi non consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03292023-181129