Tipo di tesi
Tesi di laurea magistrale
Titolo
Improving image captioning via Large Language Models for application in social robotics
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Riassunto (Italiano)
Progettazione e applicazione di grandi modelli linguistici (LLM) per l'implementazione di un sistema di image-to-text da integrare in un' architettura cognitiva per robot sociali. Il sistema si avvale di un modello di visual question answering per arricchire la caption di un immagine, rispondendo a delle domande generate dal LLM sulla base della caption corrente. La caption arricchita potrà essere sfruttata per espandere il contesto del LLM utilizzato dal robot, al fine di migliorarne le capacità comunicative.
Design and application of large language models (LLM) for the implementation of an image-to-text system to be integrated into a cognitive architecture for social robots. The system uses a visual question answering model to enrich the caption of an image by answering questions generated by the LLM based on the current caption. The enriched caption can be exploited to expand the context of the LLM used by the robot in order to improve its communicative capabilities.