logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11132024-114420


Tipo di tesi
Tesi di laurea magistrale
Autore
GNERI, JACOPO
URN
etd-11132024-114420
Titolo
Modeling Toxic Users Via Feature Extraction: An Interpretable Data-Driven Approach
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Prof.ssa Pollacci, Laura
correlatore Prof. Guidotti, Riccardo
Parole chiave
  • feature extraction
  • reddit
  • toxicity detection
  • XAI
Data inizio appello
29/11/2024
Consultabilità
Tesi non consultabile
Riassunto
This thesis focuses on the classification of toxic users on Reddit. An initial feature selection phase is dedicated to analyzing the comments of these users, which are first defined as toxic, followed by the extraction of additional features related to their comments and activity. Once the features are extracted for each user, a preliminary ground truth is defined based on their activity, labeling them as toxic or non-toxic.
Subsequently, toxic users are further annotated according to four different types of toxicity, depending on their activity. The users are then the focus of two classification tasks: a binary classification and a multi-class single-label classification, both conducted using all features extracted from five different models.
The final Explainable AI phase illustrates the impact of the features in the previous classification tasks.

Il lavoro di tesi è incentrato sulla classificazione di utenti tossici su Reddit. Una fase iniziale di feature selection è dedicata ai commenti degli stessi utenti, che prima vengono definiti come tossici e da cui in un secondo momento sono estratte ulteriori feature riguardanti i loro commenti e la loro attività Una volta estratte le feature anche per gli utenti, viene per loro definita una prima ground truth basata sulla loro attività per annotarli come tossici o non tossici.
Successivamente gli utenti tossici vengono ulteriormente annotati secondo altri 4 tipi diversi di tossicità a seconda della loro attività.
Gil utenti sono poi al centro di due task di classificazione, uno binario e uno multi-class single-label, che sono condoti considerando tutte le feature estratte da 5 modelli diversi.
La fase finale di Explainable AI mostra qual è l'impatto delle feature nei precedenti task di classificazione.
File