logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11022022-223455


Tipo di tesi
Tesi di laurea magistrale
Autore
COGOTTI, EDOARDO
URN
etd-11022022-223455
Titolo
Sviluppo di un testbed per la valutazione di architetture deep learning per text-to-image generation
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Relatori
relatore Prof. Cimino, Mario Giovanni Cosimo Antonio
relatore Prof. Galatolo, Federico Andrea
Parole chiave
  • clip
  • computer vision
  • craiyon
  • dalle2
  • deep learning
  • glide
  • human evaluation
  • latent diffusion
  • stable diffusion
  • text-to-image
  • text-to-image generation
Data inizio appello
18/11/2022
Consultabilità
Non consultabile
Data di rilascio
18/11/2025
Riassunto
La tesi sviluppa un testbed al fine di valutare la capacità generativa di cinque differenti architetture deep learning text-to-image. Il dataset usato per tale valutazione è stato generato ad hoc mediante tecniche di web scraping per descrivere in modo rappresentativo differenti classi target. La valutazione delle architetture è realizzata secondo le metriche FiD, CLIP-score e human evaluation. Per quest’ultima metrica è stata progettata e sviluppata un’applicazione per raccogliere e analizzare dati circa la percezione umana rispetto al groundtruth.

The thesis develops a testbed in order to evaluate the generative capacity of five different text-to-image deep learning architectures. The dataset used for this evaluation was generated ad hoc using web scraping techniques to representively describe different target classes. The evaluation of the architectures is achieved according to the FiD, CLIP-score and human evaluation metrics. For this last metric, an application was designed and developed to collect and analyze data about human perception with respect to groundtruth.
File