ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03252026-180846

Tipo di tesi

Tesi di laurea magistrale

URN

etd-03252026-180846

Titolo

Errori linguistici e rappresentazioni interne dei modelli Transformer: Robustezza e riconoscimento dell’errore in testi di studenti italiani

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Parole chiave

BERT
embeddings
errori di apprendenti
interpretabilità
riconoscimento dell'errore
robustezza
similarità semantica

Data inizio appello

10/04/2026

Consultabilità

Completa

Riassunto (Inglese)

The thesis investigates the implicit behavior of the Italian version of BERT, a Neural Language Model based on the Transformer architecture, when exposed to a specific source of noisy data: essays written by Italian lower secondary school students, annotated with grammatical, orthographic, and lexical errors.
The work is structured into two main studies. The first analyzes the internal representations of the pre-trained model using unsupervised methods, such as computing similarity and distance between embeddings extracted from the model’s 12 layers, representing erroneous sentences and their corresponding corrections. Additionally, a correlation study is conducted between non-lexical linguistic features of the sentences and the similarity values of erroneous–corrected sentence pairs at the final layer.
The second study evaluates BERT’s ability to recognize erroneous sentences after appropriate fine-tuning, considering both in-domain and cross-domain scenarios and testing multiple configurations.

Riassunto (Italiano)

L’elaborato indaga il comportamento implicito della versione italiana di BERT, un Neural Language Model basato su architettura Transformer, di fronte a una specifica fonte di dati rumorosi: temi scritti da studenti italiani della scuola secondaria di primo grado, annotati con errori grammaticali, ortografici e lessicali.
Il lavoro si articola in due studi principali. Il primo analizza le rappresentazioni interne del modello pre-addestrato mediante metodi non supervisionati, come il calcolo della similarità e della distanza tra gli embedding estratti dai 12 strati del modello, relativi a frasi errate e alle rispettive correzioni. Inoltre, viene condotto uno studio di correlazione tra le caratteristiche linguistiche non lessicali delle frasi e i valori di similarità delle coppie frase errata–corretta all’ultimo strato.
Il secondo studio valuta la capacità di BERT di riconoscere le frasi errate dopo un opportuno fine-tuning, considerando scenari sia in-domain sia cross-domain e testando diverse configurazioni.

File

Nome file	Dimensione
Tesi_Mag...ffeis.pdf	3.87 Mb
Contatta l’autore