logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-08252023-101350


Tipo di tesi
Tesi di laurea magistrale
Autore
PELAGATTI, TOMMASO
URN
etd-08252023-101350
Titolo
Accordi e disaccordi: studio linguistico-computazionale sulla percezione della similarità semantica tra frasi
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Venturi, Giulia
Parole chiave
  • accordo tra annotatori
  • automatic prediction
  • human perception
  • inter-annotator agreement
  • linguistic profiling
  • percezione umana
  • predizione automatica
  • profilazione linguistica
  • semantic similarity
  • similarità semantica
  • Transformer models
Data inizio appello
28/09/2023
Consultabilità
Completa
Riassunto
La tesi affronta il tema della percezione e del riconoscimento automatico della similarità semantica tra frasi in uno studio che approfondisce diversi aspetti legati alla misurazione della similarità semantica e all’accordo tra annotatori. È stato analizzato un corpus annotato con giudizi umani di similarità, misurando l’accordo tra annotatori singoli e tra gruppi selezionati in base a caratteristiche demografiche. Ne è emerso che annotatori con caratteristiche demografiche simili tendono a esprimere giudizi di similarità tra loro più coesi. Inoltre, è stata studiata la correlazione tra i giudizi umani e misure di similarità lessicali, morfosintattiche e sintattiche tra le frasi. Lo studio è stato svolto sia con i giudizi di similarità aggregati attraverso l’uso di quattro diversi metodi, che per i giudizi di ogni singolo annotatore. La sovrapposizione lessicale è risultata la misura di similarità con maggiore correlazione in entrambi i casi. Tuttavia, oltre il 75% degli annotatori ha espresso giudizi di similarità che correlano con 10 o più caratteristiche morfosintattiche o sintattiche delle frasi. Successivamente, sono stati condotti degli esperimenti di riconoscimento della similarità addestrando dei modelli di apprendimento automatico in un compito di regressione. I modelli sono stati addestrati nella predizione dei giudizi di similarità aggregati con i quattro metodi di aggregazione sopra citati. La sovrapposizione lessicale e le rappresentazioni semantiche implicite ottenute attraverso il fine-tuning di un modello BERT pre-addestrato sono risultate le feature linguistiche più predittive della similarità semantica. I risultati ottenuti sfruttando i diversi metodi di aggregazione dei giudizi mostrano tendenze simili. Infine, sono stati svolti alcuni esperimenti per indagare l’effetto dell’accordo tra gli annotatori nell’addestramento e valutazione dei modelli di predizione della similarità semantica. Ne è emerso che, nei modelli che usano la sovrapposizione lessicale e le rappresentazioni di BERT specializzato sul compito come input feature, la capacità di predizione aumenta all’aumentare dell’accordo tra gli annotatori. Per quanto riguarda i modelli che usano le rappresentazioni semantiche profonde ricavate dal fine-tuning di BERT, non si osserva una tendenza altrettanto regolare. I risultati ottenuti mostrano l’importanza di considerare l’accordo tra gli annotatori in compiti di riconoscimento della similarità semantica, includendo nei set di training e test esempi per cui gli annotatori hanno espresso giudizi in disaccordo tra loro.
File