Tesi etd-11132024-114420

Tipo di tesi

Tesi di laurea magistrale

Autore

GNERI, JACOPO

URN

etd-11132024-114420

Titolo

Modeling Toxic Users Via Feature Extraction: An Interpretable Data-Driven Approach

Dipartimento

INFORMATICA

Corso di studi

DATA SCIENCE AND BUSINESS INFORMATICS

Relatori

relatore Prof.ssa Pollacci, Laura
correlatore Prof. Guidotti, Riccardo

Parole chiave

feature extraction
reddit
toxicity detection
XAI

Data inizio appello

29/11/2024

Consultabilità

Tesi non consultabile

Riassunto

This thesis focuses on the classification of toxic users on Reddit. An initial feature selection phase is dedicated to analyzing the comments of these users, which are first defined as toxic, followed by the extraction of additional features related to their comments and activity. Once the features are extracted for each user, a preliminary ground truth is defined based on their activity, labeling them as toxic or non-toxic.
Subsequently, toxic users are further annotated according to four different types of toxicity, depending on their activity. The users are then the focus of two classification tasks: a binary classification and a multi-class single-label classification, both conducted using all features extracted from five different models.
The final Explainable AI phase illustrates the impact of the features in the previous classification tasks.

Il lavoro di tesi è incentrato sulla classificazione di utenti tossici su Reddit. Una fase iniziale di feature selection è dedicata ai commenti degli stessi utenti, che prima vengono definiti come tossici e da cui in un secondo momento sono estratte ulteriori feature riguardanti i loro commenti e la loro attività Una volta estratte le feature anche per gli utenti, viene per loro definita una prima ground truth basata sulla loro attività per annotarli come tossici o non tossici.
Successivamente gli utenti tossici vengono ulteriormente annotati secondo altri 4 tipi diversi di tossicità a seconda della loro attività.
Gil utenti sono poi al centro di due task di classificazione, uno binario e uno multi-class single-label, che sono condoti considerando tutte le feature estratte da 5 modelli diversi.
La fase finale di Explainable AI mostra qual è l'impatto delle feature nei precedenti task di classificazione.

File

Nome file	Dimensione
Tesi non consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11132024-114420