Tesi etd-03252026-180846 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
MAFFEIS, CAMILLA
URN
etd-03252026-180846
Titolo
Errori linguistici e rappresentazioni interne dei modelli Transformer: Robustezza e riconoscimento dell’errore in testi di studenti italiani
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Dell'Orletta, Felice
relatore Brunato, Dominique
relatore Brunato, Dominique
Parole chiave
- BERT
- embeddings
- errori di apprendenti
- interpretabilità
- riconoscimento dell'errore
- robustezza
- similarità semantica
Data inizio appello
10/04/2026
Consultabilità
Completa
Riassunto (Inglese)
The thesis investigates the implicit behavior of the Italian version of BERT, a Neural Language Model based on the Transformer architecture, when exposed to a specific source of noisy data: essays written by Italian lower secondary school students, annotated with grammatical, orthographic, and lexical errors.
The work is structured into two main studies. The first analyzes the internal representations of the pre-trained model using unsupervised methods, such as computing similarity and distance between embeddings extracted from the model’s 12 layers, representing erroneous sentences and their corresponding corrections. Additionally, a correlation study is conducted between non-lexical linguistic features of the sentences and the similarity values of erroneous–corrected sentence pairs at the final layer.
The second study evaluates BERT’s ability to recognize erroneous sentences after appropriate fine-tuning, considering both in-domain and cross-domain scenarios and testing multiple configurations.
The work is structured into two main studies. The first analyzes the internal representations of the pre-trained model using unsupervised methods, such as computing similarity and distance between embeddings extracted from the model’s 12 layers, representing erroneous sentences and their corresponding corrections. Additionally, a correlation study is conducted between non-lexical linguistic features of the sentences and the similarity values of erroneous–corrected sentence pairs at the final layer.
The second study evaluates BERT’s ability to recognize erroneous sentences after appropriate fine-tuning, considering both in-domain and cross-domain scenarios and testing multiple configurations.
Riassunto (Italiano)
L’elaborato indaga il comportamento implicito della versione italiana di BERT, un Neural Language Model basato su architettura Transformer, di fronte a una specifica fonte di dati rumorosi: temi scritti da studenti italiani della scuola secondaria di primo grado, annotati con errori grammaticali, ortografici e lessicali.
Il lavoro si articola in due studi principali. Il primo analizza le rappresentazioni interne del modello pre-addestrato mediante metodi non supervisionati, come il calcolo della similarità e della distanza tra gli embedding estratti dai 12 strati del modello, relativi a frasi errate e alle rispettive correzioni. Inoltre, viene condotto uno studio di correlazione tra le caratteristiche linguistiche non lessicali delle frasi e i valori di similarità delle coppie frase errata–corretta all’ultimo strato.
Il secondo studio valuta la capacità di BERT di riconoscere le frasi errate dopo un opportuno fine-tuning, considerando scenari sia in-domain sia cross-domain e testando diverse configurazioni.
Il lavoro si articola in due studi principali. Il primo analizza le rappresentazioni interne del modello pre-addestrato mediante metodi non supervisionati, come il calcolo della similarità e della distanza tra gli embedding estratti dai 12 strati del modello, relativi a frasi errate e alle rispettive correzioni. Inoltre, viene condotto uno studio di correlazione tra le caratteristiche linguistiche non lessicali delle frasi e i valori di similarità delle coppie frase errata–corretta all’ultimo strato.
Il secondo studio valuta la capacità di BERT di riconoscere le frasi errate dopo un opportuno fine-tuning, considerando scenari sia in-domain sia cross-domain e testando diverse configurazioni.
File
| Nome file | Dimensione |
|---|---|
| Tesi_Mag...ffeis.pdf | 3.87 Mb |
Contatta l’autore |
|