ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-01132023-075443


Tipo di tesi
Tesi di laurea magistrale
Autore
BETTINI, CHIARA
URN
etd-01132023-075443
Titolo
Per un classificatore della complessità frasale: esperimenti ed analisi nel dominio amministrativo
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Lenci, Alessandro
Parole chiave
  • readability
  • leggibilità
  • nlp
  • machine learning
  • automatic readability assessment
  • deep learning
Data inizio appello
02/02/2023
Consultabilità
Tesi non consultabile
Riassunto
Lo scopo di un indice di leggibilità (readability) è di definire quanto un testo sia “leggibile”, ovvero la difficoltà che un lettore incontra nell’interpretare tale elaborato scritto. Il linguaggio amministrativo, in particolare, è un linguaggio settoriale spesso considerato ostico, e strumenti automatici per la leggibilità possono risultare utili per migliorarne l’accessibilità. Negli ultimi anni, con il miglioramento degli strumenti di Natural Language Processing, sono stati sviluppati strumenti efficaci per l’Automatic Readability Assessment che utilizzano tecniche di machine learning. Tuttavia, buona parte della letteratura sulla leggibilità è a livello testo.
Lo scopo di questo lavoro è lo studio di modelli per l’Automatic Readability Assessment a livello frase per il dominio amministrativo in italiano. Sono stati testati dei modelli di classificatore e regressore BERT e di classificatore SVM già proposti per l’analisi della leggibilità a livello testo, con approcci cross-linguistici e/o inter-dominio; tale scelta è motivata dalla ridotta quantità di risorse disponibili per l’allenamento di strumenti di questo tipo per l’italiano. I modelli sono stati testati su Admin-It, un corpus parallelo di frasi semplificate tratte da testi amministrativi in italiano. L'approccio che ha dato i risultati migliori è stato quello cross-linguistico in-dominio, con un classificatore che ha ottenuto una F1 pari a 0,825 sulla sottosezione Admin-It RS. Gli altri modelli, invece, hanno avuto risultati in linea o peggiori rispetto alla baseline, calcolata utilizzando feature superficiali tipiche delle formule di leggibilità tradizionali.
Il modello di classificatore BERT che ha ottenuto i risultati migliori è stato quindi selezionato per lo sviluppo di un indice di leggibilità per frasi. Tale indice utilizza la probabilità di una frase di essere assegnata alla classe complessa dal modello per collocare le frasi analizzate in una scala.
File