logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10202021-170616


Tipo di tesi
Tesi di laurea magistrale
Autore
BARISANI, ELISA
URN
etd-10202021-170616
Titolo
Costruire un sistema di Visual Question Answering per l'italiano con la traduzione automatica: esperimenti ed analisi
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Lenci, Alessandro
relatore Passaro, Lucia C.
Parole chiave
  • Sistemi di Visual Question Answering in italiano
  • LXMERT
  • GQA
  • Natural Language Processing
  • Computer Vision
  • Traduzione automatica
  • Multimodalità
  • Visual Question Answering
Data inizio appello
15/11/2021
Consultabilità
Tesi non consultabile
Riassunto
L’elaborato si propone di indagare la possibilità di costruire un sistema di Visual Question Answering (VQA) per l’italiano. Il recente sviluppo dell’Intelligenza Artificiale ha incoraggiato l’interesse nei confronti di task multimodali che migliorano l’interazione uomo-macchina, e in particolare di quelli che combinano Computer Vision e Natural Language Processing. Il VQA è il task che risponde correttamente a domande poste in linguaggio naturale sulle immagini e combina la comprensione delle immagini, del linguaggio naturale e del senso comune. Gli studi sul VQA si concentrano prevalentemente sulla lingua inglese, per la quale sono disponibili numerosi dataset e modelli che raggiungono lo stato dell’arte. L’ipotesi dell’elaborato è che i passi avanti compiuti dalla traduzione automatica siano tali da consentire di costruire un sistema di VQA per l’italiano senza la necessità di creare nuove risorse specifiche per la lingua. A tal fine, vengono comparate due metodologie possibili: la prima consiste nella creazione di un dataset italiano a partire dalla traduzione automatica di una risorsa in inglese, GQA, e nel riaddestramento su esso di un modello che raggiunge lo stato dell’arte, LXMERT; la seconda sfrutta le potenzialità offerte da un modello pre-addestrato in inglese, en-LXMERT, attraverso la traduzione automatica della domanda in input e della risposta in output. I risultati dei due sistemi vengono analizzati dal punto di vista quantitativo e qualitativo.
File