Tesi etd-09142023-015349

Tipo di tesi

Tesi di laurea magistrale

Autore

COCCIU, ELEONORA

URN

etd-09142023-015349

Titolo

È la frase successiva? Indagine delle competenze di un neural language model sull'identificazione della coerenza

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Relatori

relatore Prof. Dell'Orletta, Felice
correlatore Ravelli, Andrea Amelio

Parole chiave

bert
coerenza
embeddings
neural language model
probing tasks

Data inizio appello

28/09/2023

Consultabilità

Tesi non consultabile

Riassunto

La coerenza è un indicatore molto importante della qualità di un testo, perché restituisce una fotografia di come questo è costruito, della bontà dell’organizzazione delle frasi e del loro significato, con un conseguente aumento della leggibilità e comprensibilità del messaggio in esso contenuto.
Con il nostro studio abbiamo voluto analizzare la capacità di Bert di individuare la coerenza fra due frasi, ovvero la sua abilità nel capire se due proposizioni possono essere consecutive o meno.
Al fine di comprendere le capacità del neural language model di risolvere il task suddetto in assenza di fine-tuning, abbiamo utilizzato un approccio non supervisionato e uno supervisionato. Per quanto concerne il primo scenario, abbiamo calcolato la distanza cosenica fra le rappresentazioni delle frasi estratte da Bert; in merito al secondo metodo, abbiamo eseguito dei probing tasks, utilizzando gli embeddings ottenuti dal neural language model come features di un modello SVM.
Infine, abbiamo eseguito il fine-tuning del nostro modello Bert per quantificare l'effettiva capacità del modello di riconoscere la coerenza fra due frasi.
Abbiamo effettuato i medesimi esperimenti sulla baseline sia per i probing tasks, sia per il fine-tuning.
Per la nostra indagine abbiamo utilizzato frasi estratte dai TEDx Talks e dalle sessioni plenarie del Senato italiano (ParlaMint), e abbiamo realizzato dei dataset di complessità crescente, con frasi a distanza 5, 10, 20, 30 (per ParlaMint è stato realizzato anche un dataset con frasi appartenenti a interventi diversi).
In questo modo abbiamo potuto analizzare le competenze del neural language model in merito all'individuazione della coerenza con e senza fine-tuning, e abbiamo potuto studiare eventuali differenze derivanti dalla diversa complessità del dataset e/o dal genere testuale considerato.

File

Nome file	Dimensione
Tesi non consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-09142023-015349