logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01212026-170643


Tipo di tesi
Tesi di laurea magistrale
Autore
MENCONI, CAROLINA
URN
etd-01212026-170643
Titolo
Multimodal Instagram Engagement Prediction: Model Comparison and Explainability with the MIXER Framework
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Dott.ssa Pollacci, Laura
Parole chiave
  • classification
  • explainability
  • multimodal models
  • text embeddings
  • visual embeddings
Data inizio appello
27/02/2026
Consultabilità
Completa
Riassunto
Questa tesi affronta il problema della previsione dell’engagement su Instagram formulandolo come un compito di classificazione. L’obiettivo è predire un engagement rate discretizzato, considerando tre diversi livelli di granularità. Vengono analizzati e confrontati approcci unimodali, basati esclusivamente sul testo o sull’immagine, e approcci multimodali, mettendo a confronto sia modelli unimodali e multimodali sia diverse soluzioni multimodali. La fusione delle informazioni provenienti dalle diverse modalità viene inoltre studiata confrontando strategie basate sulla concatenazione con una fusione fondata su meccanismi di cross-attention. Infine, vengono applicate tecniche di Explainable AI al fine di interpretare le predizioni e analizzare il contributo delle diverse modalità e delle componenti informative del contenuto.

This thesis addresses the problem of predicting engagement on Instagram by formulating it as a classification task. The goal is to predict a discretized engagement rate, considering three different levels of granularity. Unimodal approaches, based exclusively on text or images, and multimodal approaches are analyzed and compared, evaluating both unimodal versus multimodal models and different multimodal solutions. The fusion of information from the different modalities is further investigated by comparing concatenation-based strategies with fusion based on cross-attention mechanisms. Finally, Explainable AI techniques are applied to interpret the predictions and analyze the contribution of the different modalities and the informative components of the content.
File