Tesi etd-01132023-075443

Tipo di tesi

Tesi di laurea magistrale

URN

etd-01132023-075443

Titolo

Per un classificatore della complessità frasale: esperimenti ed analisi nel dominio amministrativo

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Relatori

.

relatore Lenci, Alessandro

Parole chiave

automatic readability assessment
deep learning
leggibilità
machine learning
nlp
readability

Data inizio appello

02/02/2023

Consultabilità

Tesi non consultabile

Riassunto (Inglese)

Riassunto (Italiano)

Lo scopo di un indice di leggibilità (readability) è di definire quanto un testo sia “leggibile”, ovvero la difficoltà che un lettore incontra nell’interpretare tale elaborato scritto. Il linguaggio amministrativo, in particolare, è un linguaggio settoriale spesso considerato ostico, e strumenti automatici per la leggibilità possono risultare utili per migliorarne l’accessibilità. Negli ultimi anni, con il miglioramento degli strumenti di Natural Language Processing, sono stati sviluppati strumenti efficaci per l’Automatic Readability Assessment che utilizzano tecniche di machine learning. Tuttavia, buona parte della letteratura sulla leggibilità è a livello testo.
Lo scopo di questo lavoro è lo studio di modelli per l’Automatic Readability Assessment a livello frase per il dominio amministrativo in italiano. Sono stati testati dei modelli di classificatore e regressore BERT e di classificatore SVM già proposti per l’analisi della leggibilità a livello testo, con approcci cross-linguistici e/o inter-dominio; tale scelta è motivata dalla ridotta quantità di risorse disponibili per l’allenamento di strumenti di questo tipo per l’italiano. I modelli sono stati testati su Admin-It, un corpus parallelo di frasi semplificate tratte da testi amministrativi in italiano. L'approccio che ha dato i risultati migliori è stato quello cross-linguistico in-dominio, con un classificatore che ha ottenuto una F1 pari a 0,825 sulla sottosezione Admin-It RS. Gli altri modelli, invece, hanno avuto risultati in linea o peggiori rispetto alla baseline, calcolata utilizzando feature superficiali tipiche delle formule di leggibilità tradizionali.
Il modello di classificatore BERT che ha ottenuto i risultati migliori è stato quindi selezionato per lo sviluppo di un indice di leggibilità per frasi. Tale indice utilizza la probabilità di una frase di essere assegnata alla classe complessa dal modello per collocare le frasi analizzate in una scala.

File

Nome file	Dimensione
Tesi non consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01132023-075443