logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11022023-081126


Tipo di tesi
Tesi di laurea magistrale
Autore
SIRIGU, GIANLUCA
URN
etd-11022023-081126
Titolo
Improving image captioning via Large Language Models for application in social robotics
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Relatori
relatore Prof. Cimino, Mario Giovanni Cosimo Antonio
relatore Galatolo, Federico Andrea
relatore Cominelli, Lorenzo
Parole chiave
  • social robotics
  • image to text
  • visual question answering
  • vqa
  • captioning
  • large language model
  • llm
Data inizio appello
17/11/2023
Consultabilità
Non consultabile
Data di rilascio
17/11/2093
Riassunto
Progettazione e applicazione di grandi modelli linguistici (LLM) per l'implementazione di un sistema di image-to-text da integrare in un' architettura cognitiva per robot sociali. Il sistema si avvale di un modello di visual question answering per arricchire la caption di un immagine, rispondendo a delle domande generate dal LLM sulla base della caption corrente. La caption arricchita potrà essere sfruttata per espandere il contesto del LLM utilizzato dal robot, al fine di migliorarne le capacità comunicative.

Design and application of large language models (LLM) for the implementation of an image-to-text system to be integrated into a cognitive architecture for social robots. The system uses a visual question answering model to enrich the caption of an image by answering questions generated by the LLM based on the current caption. The enriched caption can be exploited to expand the context of the LLM used by the robot in order to improve its communicative capabilities.
File