logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11062015-164626


Tipo di tesi
Tesi di laurea magistrale
Autore
RIDOLFI, MATTIA
URN
etd-11062015-164626
Titolo
Progetto e realizzazione di un sistema basato su tecniche di data mining per l'analisi del comportamento dinamico degli utenti di una rete sociale
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
INGEGNERIA INFORMATICA
Relatori
relatore Prof.ssa Lazzerini, Beatrice
correlatore Dott. Pistolesi, Francesco
correlatore Dott. Cococcioni, Marco
Parole chiave
  • sequenze
  • rete sociale
  • profili
  • data mining
  • social
Data inizio appello
27/11/2015
Consultabilità
Non consultabile
Data di rilascio
27/11/2024
Riassunto
La presente tesi si inserisce all'interno di un'attività di ricerca svolta presso il Dipartimento di Ingegneria dell'Informazione e relativa allo sviluppo di un algoritmo di analisi del comportamento dinamico di utenti che frequentano una rete sociale.
L'obiettivo del presente lavoro è quello di prevedere il comportamento futuro degli utenti sulla base dei testi scritti all'interno della rete sociale.
Per fare ciò, il sistema fa uso di determinate parole chiave, chiamate keyword, raggruppate in insiemi che esprimono una relazione di causa ed effetto. I dati in possesso sono stati prelevati dal forum Safe Haven, una comunità virtuale che tratta argomenti di autolesionismo, in cui gli utenti partecipanti sono affetti da varie patologie psichiatriche; perciò si è scelto di raggruppare nell’Insieme Causa le keyword che rappresentano la patologia, e nell’Insieme Effetto quelle esprimono i sintomi dell’autolesionismo.
L’algoritmo analizza la correlazione tra le keyword scelte nei due insiemi, ognuna delle quali forma un legame con le altre in cui la correlazione risultante è superiore ad una soglia scelta in fase di progetto. Ogni gruppo di keyword collegate tra loro viene chiamato Isola. La composizione delle isole è risultata fondamentale per raggiungere lo scopo della tesi, e sono mostrate nel lavoro quattro diverse varianti.
Ad ogni utente affetto dalla stessa patologia è associato un numero diverso di isole strutturate differentemente. Per ciascun utente l’algoritmo preleva il primo accesso alle isole, ossia il timestamp del testo scritto in cui l’utente scrive per la prima volta una o più keyword appartenenti all’isola. Dai timestamp associati alle isole si ricavano le sequenze temporali con un algoritmo di sequence pattern mining.
I risultati hanno messo in evidenza che quando gli utenti trattano argomenti circoscritti e monotematici l’algoritmo produce delle sequenze temporali di keyword da cui si può prevedere il comportamento degli stessi.
File