logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-01222024-095308


Thesis type
Tesi di laurea magistrale
Author
SARTOR, MARTA
URN
etd-01222024-095308
Thesis title
Modellare la coerenza linguistica: metodi, modelli e sfide nell'era dei Neural Language Models
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Dott. Dell'Orletta, Felice
correlatore Dott.ssa Venturi, Giulia
Keywords
  • coerenza
  • coherence
  • language models
  • linguistica computazionale
  • nlp
  • transformer
Graduation session start date
09/02/2024
Availability
Full
Summary
Obiettivo della tesi è sperimentare e valutare metodologie per la modellazione della coerenza a partire dai language models, in particolare dai loro embedding: la natura distribuzionale delle informazioni codificate si presta potenzialmente a catturare informazioni semantiche, linguistiche e situazionali complesse come quelle considerate nella valutazione della coerenza. Il metro su cui l'efficacia delle metodologie testate è valutato sono i giudizi umani, che se disponibili sono il sistema di valutazione della coerenza più valido.
Preliminarmente è stato condotto un monitoraggio linguistico sul dataset utilizzato per studiare quali caratteristiche linguistiche correlassero maggiormente con le valutazioni umane. Sono state poi testate varie metodologie non supervisionate per l'analisi della coerenza: usare la perplessità o la pseudoperplessità come proxy oppure dati statistici sulla distanza (ad es. la media) tra gli embedding delle frasi consecutive; per questa analisi sono stati confrontati una varietà di modelli con caratteristiche differenti. Come approccio supervisionato dei modelli scelti sono stati addestrati sulla regressione rispetto ai giudizi umani. Entrambi gli approcci sono poi stati sottoposti a probing test per analizzare più nel dettaglio la natura degli embedding.
File