Tesi etd-08252023-101350

Tipo di tesi

Tesi di laurea magistrale

Autore

PELAGATTI, TOMMASO

URN

etd-08252023-101350

Titolo

Accordi e disaccordi: studio linguistico-computazionale sulla percezione della similarità semantica tra frasi

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Relatori

relatore Venturi, Giulia

Parole chiave

accordo tra annotatori
automatic prediction
human perception
inter-annotator agreement
linguistic profiling
percezione umana
predizione automatica
profilazione linguistica
semantic similarity
similarità semantica
Transformer models

Data inizio appello

28/09/2023

Consultabilità

Completa

Riassunto

La tesi affronta il tema della percezione e del riconoscimento automatico della similarità semantica tra frasi in uno studio che approfondisce diversi aspetti legati alla misurazione della similarità semantica e all’accordo tra annotatori. È stato analizzato un corpus annotato con giudizi umani di similarità, misurando l’accordo tra annotatori singoli e tra gruppi selezionati in base a caratteristiche demografiche. Ne è emerso che annotatori con caratteristiche demografiche simili tendono a esprimere giudizi di similarità tra loro più coesi. Inoltre, è stata studiata la correlazione tra i giudizi umani e misure di similarità lessicali, morfosintattiche e sintattiche tra le frasi. Lo studio è stato svolto sia con i giudizi di similarità aggregati attraverso l’uso di quattro diversi metodi, che per i giudizi di ogni singolo annotatore. La sovrapposizione lessicale è risultata la misura di similarità con maggiore correlazione in entrambi i casi. Tuttavia, oltre il 75% degli annotatori ha espresso giudizi di similarità che correlano con 10 o più caratteristiche morfosintattiche o sintattiche delle frasi. Successivamente, sono stati condotti degli esperimenti di riconoscimento della similarità addestrando dei modelli di apprendimento automatico in un compito di regressione. I modelli sono stati addestrati nella predizione dei giudizi di similarità aggregati con i quattro metodi di aggregazione sopra citati. La sovrapposizione lessicale e le rappresentazioni semantiche implicite ottenute attraverso il fine-tuning di un modello BERT pre-addestrato sono risultate le feature linguistiche più predittive della similarità semantica. I risultati ottenuti sfruttando i diversi metodi di aggregazione dei giudizi mostrano tendenze simili. Infine, sono stati svolti alcuni esperimenti per indagare l’effetto dell’accordo tra gli annotatori nell’addestramento e valutazione dei modelli di predizione della similarità semantica. Ne è emerso che, nei modelli che usano la sovrapposizione lessicale e le rappresentazioni di BERT specializzato sul compito come input feature, la capacità di predizione aumenta all’aumentare dell’accordo tra gli annotatori. Per quanto riguarda i modelli che usano le rappresentazioni semantiche profonde ricavate dal fine-tuning di BERT, non si osserva una tendenza altrettanto regolare. I risultati ottenuti mostrano l’importanza di considerare l’accordo tra gli annotatori in compiti di riconoscimento della similarità semantica, includendo nei set di training e test esempi per cui gli annotatori hanno espresso giudizi in disaccordo tra loro.

File

Nome file	Dimensione
TesiPelagatti.pdf	3.22 Mb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-08252023-101350