Tesi etd-11022023-081126

Tipo di tesi

Tesi di laurea magistrale

Autore

SIRIGU, GIANLUCA

URN

etd-11022023-081126

Titolo

Improving image captioning via Large Language Models for application in social robotics

Dipartimento

INGEGNERIA DELL'INFORMAZIONE

Corso di studi

ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING

Relatori

relatore Prof. Cimino, Mario Giovanni Cosimo Antonio
relatore Galatolo, Federico Andrea
relatore Cominelli, Lorenzo

Parole chiave

captioning
image to text
large language model
llm
social robotics
visual question answering
vqa

Data inizio appello

17/11/2023

Consultabilità

Non consultabile

Data di rilascio

17/11/2093

Riassunto

Progettazione e applicazione di grandi modelli linguistici (LLM) per l'implementazione di un sistema di image-to-text da integrare in un' architettura cognitiva per robot sociali. Il sistema si avvale di un modello di visual question answering per arricchire la caption di un immagine, rispondendo a delle domande generate dal LLM sulla base della caption corrente. La caption arricchita potrà essere sfruttata per espandere il contesto del LLM utilizzato dal robot, al fine di migliorarne le capacità comunicative.

Design and application of large language models (LLM) for the implementation of an image-to-text system to be integrated into a cognitive architecture for social robots. The system uses a visual question answering model to enrich the caption of an image by answering questions generated by the LLM based on the current caption. The enriched caption can be exploited to expand the context of the LLM used by the robot in order to improve its communicative capabilities.

File

Nome file	Dimensione
La tesi non è consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11022023-081126