logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-09142023-015349


Thesis type
Tesi di laurea magistrale
Author
COCCIU, ELEONORA
URN
etd-09142023-015349
Thesis title
È la frase successiva? Indagine delle competenze di un neural language model sull'identificazione della coerenza
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Prof. Dell'Orletta, Felice
correlatore Ravelli, Andrea Amelio
Keywords
  • bert
  • embeddings
  • coerenza
  • neural language model
  • probing tasks
Graduation session start date
28/09/2023
Availability
None
Summary
La coerenza è un indicatore molto importante della qualità di un testo, perché restituisce una fotografia di come questo è costruito, della bontà dell’organizzazione delle frasi e del loro significato, con un conseguente aumento della leggibilità e comprensibilità del messaggio in esso contenuto.
Con il nostro studio abbiamo voluto analizzare la capacità di Bert di individuare la coerenza fra due frasi, ovvero la sua abilità nel capire se due proposizioni possono essere consecutive o meno.
Al fine di comprendere le capacità del neural language model di risolvere il task suddetto in assenza di fine-tuning, abbiamo utilizzato un approccio non supervisionato e uno supervisionato. Per quanto concerne il primo scenario, abbiamo calcolato la distanza cosenica fra le rappresentazioni delle frasi estratte da Bert; in merito al secondo metodo, abbiamo eseguito dei probing tasks, utilizzando gli embeddings ottenuti dal neural language model come features di un modello SVM.
Infine, abbiamo eseguito il fine-tuning del nostro modello Bert per quantificare l'effettiva capacità del modello di riconoscere la coerenza fra due frasi.
Abbiamo effettuato i medesimi esperimenti sulla baseline sia per i probing tasks, sia per il fine-tuning.
Per la nostra indagine abbiamo utilizzato frasi estratte dai TEDx Talks e dalle sessioni plenarie del Senato italiano (ParlaMint), e abbiamo realizzato dei dataset di complessità crescente, con frasi a distanza 5, 10, 20, 30 (per ParlaMint è stato realizzato anche un dataset con frasi appartenenti a interventi diversi).
In questo modo abbiamo potuto analizzare le competenze del neural language model in merito all'individuazione della coerenza con e senza fine-tuning, e abbiamo potuto studiare eventuali differenze derivanti dalla diversa complessità del dataset e/o dal genere testuale considerato.
File