Tesi etd-10242023-152326

Tipo di tesi

Tesi di laurea magistrale

URN

etd-10242023-152326

Titolo

Design and Development of an Identity-aware Multi-modal Retrieval Model

Dipartimento

INGEGNERIA DELL'INFORMAZIONE

Corso di studi

ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING

Relatori

relatore Prof. Cimino, Mario Giovanni Cosimo Antonio
relatore Prof. Gennaro, Claudio
correlatore Dott. Messina, Nicola
correlatore Dott.ssa Vadicamo, Lucia

Parole chiave

Clip
COCO Person FaceSwap Dataset
cross-modal retrieval
deep learning
IdClip
identity-aware transformer model
multi-modal retrieval
transformers
visual named entity recognition

Data inizio appello

17/11/2023

Consultabilità

Completa

Riassunto (Inglese)

Riassunto (Italiano)

Contemporary approaches in the field of visual scene understanding primarily concentrate on the identification of high-level concepts related to visual objects and their interactions, often overlooking the finer details of scene comprehension.
This master’s thesis aims to present a multi-modal retrieval model designed to be also aware of specific people’s identities (e.g., important people or a well-known person). Due to the limited availability of appropriate datasets for addressing this specific task, we propose a novel dataset, called COCO Person FaceSwap Dataset, designed for training and evaluating identity-aware multi-modal architectures.
As an initial baseline solution, we introduce a transformer model based on CLIP (Contrastive Language-Image Pre-training) that operates with a compound query comprising a general scene description and an image crop featuring the face of the targeted individual. This model was called Identity-aware CLIP (IdCLIP) and its objective is to search for the most pertinent image in response to this composite query. The results obtained through our extensive experiments underscore the effectiveness of our proposed approach for identity-aware multi-modal retrieval, obtaining relevant improvements with respect to the baseline CLIP.

Gli attuali approcci nel campo della comprensione delle scene visive si concentrano principalmente sull'identificazione di concetti di alto livello relativi agli oggetti rappresentati e sulle loro interazioni, spesso trascurando i dettagli più particolari presenti nella scena.
Questa tesi si propone di presentare un modello di retrieval multimodale progettato per avere consapevolezza dell'identità di persone specifiche (ad esempio, persone importanti o note) all'interno di una scena. A causa della limitata disponibilità di dataset appropriati per affrontare questo problema specifico, è stato proposto un nuovo dataset, chiamato COCO Person FaceSwap Dataset, progettato per l'addestramento e la valutazione di architetture multimodali che si propongono di riconoscere specifiche identità all'interno di una scena.
Come soluzione di base iniziale, è stato introdotto un modello basato sui Transformer, in particolare il modello si basa su CLIP (Contrastive Language-Image Pre-training), che prende in ingresso una query composta la quale comprende una descrizione generale della scena e un'immagine con il volto dell'individuo desiderato. Questo modello è stato chiamato Identity-aware CLIP (IdCLIP) e il suo obiettivo è cercare l'immagine più pertinente in risposta a questa query composta. I risultati ottenuti attraverso i nostri esperimenti sottolineano l'efficacia dell'approccio proposto per il recupero multimodale di immagini contenenti delle entità, ottenendo miglioramenti rilevanti rispetto al CLIP di base.

File

Nome file	Dimensione
Master_T...Model.pdf	35.19 Mb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10242023-152326