logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-06162025-152622


Tipo di tesi
Tesi di laurea magistrale
Autore
ERGOLI, SALVATORE
URN
etd-06162025-152622
Titolo
Inferenza temporale e causale nei modelli multimodali: analisi del dataset ExpliCa
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Lenci, Alessandro
correlatore Prof. Bondielli, Alessandro
Parole chiave
  • causal reasoning
  • multimodale
  • nlp
  • temporal reasoning
  • vision language models
Data inizio appello
04/07/2025
Consultabilità
Non consultabile
Data di rilascio
04/07/2095
Riassunto
Ragionare sulle connessioni causali e temporali è una capacità innata per gli esseri umani, ma continua a essere un ostacolo difficile da superare per l’intelligenza artificiale. I Vision-Language Models (VLMs) si presentano come strumenti promettenti per raggiungere una comprensione concettuale più profonda, grazie alla loro abilità di mettere in relazione il linguaggio con la percezione visiva. Resta però una questione aperta: questo collegamento percettivo permette davvero di sviluppare un ragionamento simile a quello umano? Per rispondere a questa domanda, abbiamo esaminato le competenze causali e temporali di due dei più avanzati VLMs, utilizzando un dataset di immagini creato ex novo tratto dal dataet testuale ExpliCa. Attraverso una serie di task sperimentali, abbiamo confrontato le prestazioni dei modelli in condizioni puramente visive e in contesti che combinano immagini e testo. I risultati mostrano che, se da un lato i modelli sono in grado di affrontare alcune forme di ragionamento, dall’altro sono frenati da un evidente "bias di iconicità": le loro prestazioni crollano quando le immagini vengono presentate in un ordine che contrasta con la sequenza logica degli eventi. La loro tendenza a fare affidamento su scorciatoie visive elementari lascia intuire che le loro difficoltà nel ragionamento di livello superiore non siano episodi isolati, ma piuttosto la spia di una comprensione visiva ancora fragile e poco strutturata
File