logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-10202021-170616


Thesis type
Tesi di laurea magistrale
Author
BARISANI, ELISA
URN
etd-10202021-170616
Thesis title
Costruire un sistema di Visual Question Answering per l'italiano con la traduzione automatica: esperimenti ed analisi
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Lenci, Alessandro
relatore Passaro, Lucia C.
Keywords
  • Computer Vision
  • GQA
  • LXMERT
  • Multimodalità
  • Natural Language Processing
  • Sistemi di Visual Question Answering in italiano
  • Traduzione automatica
  • Visual Question Answering
Graduation session start date
15/11/2021
Availability
None
Summary
L’elaborato si propone di indagare la possibilità di costruire un sistema di Visual Question Answering (VQA) per l’italiano. Il recente sviluppo dell’Intelligenza Artificiale ha incoraggiato l’interesse nei confronti di task multimodali che migliorano l’interazione uomo-macchina, e in particolare di quelli che combinano Computer Vision e Natural Language Processing. Il VQA è il task che risponde correttamente a domande poste in linguaggio naturale sulle immagini e combina la comprensione delle immagini, del linguaggio naturale e del senso comune. Gli studi sul VQA si concentrano prevalentemente sulla lingua inglese, per la quale sono disponibili numerosi dataset e modelli che raggiungono lo stato dell’arte. L’ipotesi dell’elaborato è che i passi avanti compiuti dalla traduzione automatica siano tali da consentire di costruire un sistema di VQA per l’italiano senza la necessità di creare nuove risorse specifiche per la lingua. A tal fine, vengono comparate due metodologie possibili: la prima consiste nella creazione di un dataset italiano a partire dalla traduzione automatica di una risorsa in inglese, GQA, e nel riaddestramento su esso di un modello che raggiunge lo stato dell’arte, LXMERT; la seconda sfrutta le potenzialità offerte da un modello pre-addestrato in inglese, en-LXMERT, attraverso la traduzione automatica della domanda in input e della risposta in output. I risultati dei due sistemi vengono analizzati dal punto di vista quantitativo e qualitativo.
File