ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01222024-095308

Tipo di tesi

Tesi di laurea magistrale

URN

etd-01222024-095308

Titolo

Modellare la coerenza linguistica: metodi, modelli e sfide nell'era dei Neural Language Models

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Parole chiave

coerenza
coherence
language models
linguistica computazionale
nlp
transformer

Data inizio appello

09/02/2024

Consultabilità

Completa

Riassunto (Inglese)

Riassunto (Italiano)

Obiettivo della tesi è sperimentare e valutare metodologie per la modellazione della coerenza a partire dai language models, in particolare dai loro embedding: la natura distribuzionale delle informazioni codificate si presta potenzialmente a catturare informazioni semantiche, linguistiche e situazionali complesse come quelle considerate nella valutazione della coerenza. Il metro su cui l'efficacia delle metodologie testate è valutato sono i giudizi umani, che se disponibili sono il sistema di valutazione della coerenza più valido.
Preliminarmente è stato condotto un monitoraggio linguistico sul dataset utilizzato per studiare quali caratteristiche linguistiche correlassero maggiormente con le valutazioni umane. Sono state poi testate varie metodologie non supervisionate per l'analisi della coerenza: usare la perplessità o la pseudoperplessità come proxy oppure dati statistici sulla distanza (ad es. la media) tra gli embedding delle frasi consecutive; per questa analisi sono stati confrontati una varietà di modelli con caratteristiche differenti. Come approccio supervisionato dei modelli scelti sono stati addestrati sulla regressione rispetto ai giudizi umani. Entrambi gli approcci sono poi stati sottoposti a probing test per analizzare più nel dettaglio la natura degli embedding.

File

Nome file	Dimensione
Sartor_M...si_LM.pdf	2.22 Mb
Contatta l’autore