logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10242023-152326


Tipo di tesi
Tesi di laurea magistrale
Autore
MALTESE, LEO
URN
etd-10242023-152326
Titolo
Design and Development of an Identity-aware Multi-modal Retrieval Model
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Relatori
relatore Prof. Cimino, Mario Giovanni Cosimo Antonio
relatore Prof. Gennaro, Claudio
correlatore Dott. Messina, Nicola
correlatore Dott.ssa Vadicamo, Lucia
Parole chiave
  • visual named entity recognition
  • COCO Person FaceSwap Dataset
  • identity-aware transformer model
  • transformers
  • multi-modal retrieval
  • deep learning
  • Clip
  • cross-modal retrieval
  • IdClip
Data inizio appello
17/11/2023
Consultabilità
Completa
Riassunto
Contemporary approaches in the field of visual scene understanding primarily concentrate on the identification of high-level concepts related to visual objects and their interactions, often overlooking the finer details of scene comprehension.
This master’s thesis aims to present a multi-modal retrieval model designed to be also aware of specific people’s identities (e.g., important people or a well-known person). Due to the limited availability of appropriate datasets for addressing this specific task, we propose a novel dataset, called COCO Person FaceSwap Dataset, designed for training and evaluating identity-aware multi-modal architectures.
As an initial baseline solution, we introduce a transformer model based on CLIP (Contrastive Language-Image Pre-training) that operates with a compound query comprising a general scene description and an image crop featuring the face of the targeted individual. This model was called Identity-aware CLIP (IdCLIP) and its objective is to search for the most pertinent image in response to this composite query. The results obtained through our extensive experiments underscore the effectiveness of our proposed approach for identity-aware multi-modal retrieval, obtaining relevant improvements with respect to the baseline CLIP.

Gli attuali approcci nel campo della comprensione delle scene visive si concentrano principalmente sull'identificazione di concetti di alto livello relativi agli oggetti rappresentati e sulle loro interazioni, spesso trascurando i dettagli più particolari presenti nella scena.
Questa tesi si propone di presentare un modello di retrieval multimodale progettato per avere consapevolezza dell'identità di persone specifiche (ad esempio, persone importanti o note) all'interno di una scena. A causa della limitata disponibilità di dataset appropriati per affrontare questo problema specifico, è stato proposto un nuovo dataset, chiamato COCO Person FaceSwap Dataset, progettato per l'addestramento e la valutazione di architetture multimodali che si propongono di riconoscere specifiche identità all'interno di una scena.
Come soluzione di base iniziale, è stato introdotto un modello basato sui Transformer, in particolare il modello si basa su CLIP (Contrastive Language-Image Pre-training), che prende in ingresso una query composta la quale comprende una descrizione generale della scena e un'immagine con il volto dell'individuo desiderato. Questo modello è stato chiamato Identity-aware CLIP (IdCLIP) e il suo obiettivo è cercare l'immagine più pertinente in risposta a questa query composta. I risultati ottenuti attraverso i nostri esperimenti sottolineano l'efficacia dell'approccio proposto per il recupero multimodale di immagini contenenti delle entità, ottenendo miglioramenti rilevanti rispetto al CLIP di base.
File