ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-11172021-105127


Tipo di tesi
Tesi di laurea magistrale
Autore
MERENDI, FEDERICA
URN
etd-11172021-105127
Titolo
Sulla natura di un Neural Language Model. Il caso di BERT nello studio dell’evoluzione delle competenze di scrittura di apprendenti italiano L1
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Prof. Dell'Orletta, Felice
relatore Prof.ssa Monreale, Anna
Parole chiave
  • linguistica computazionale
  • interpretability
  • BERT
  • tracking evolution of written language competence
  • probing task
  • natural language processing
Data inizio appello
03/12/2021
Consultabilità
Completa
Riassunto
I Neural Language Model hanno rivoluzionato lo studio del trattamento automatico del linguaggio naturale, sia poiché hanno permesso di ottenere accuratezze mai raggiunte prima nella risoluzione di specifici compiti linguistici, sia perché hanno fornito un nuovo metodo di rappresentazione del testo. Il punto debole di questi modelli è la scarsa interpretabilità, ossia la difficoltà di comprendere i meccanismi che sono alla base delle loro scelte in fase di classificazione. All'interno di questo scenario, l'obiettivo di questa tesi è stato quello di interpretare le scelte del Neural Language Model BERT (Bidirectional Encoder Representations from Transformers) attraverso lo studio delle sue competenze linguistiche. Nello specifico si è scelto di studiare il comportamento di BERT nel compito di identificazione dell’evoluzione delle capacità di scrittura di apprendenti italiano L1, la cui risoluzione richiede competenze linguistiche raffinate e per questo può essere considerato uno scenario adatto per questo tipo di indagine. Al fine di studiare le competenze linguistiche di BERT si sono applicate una serie di test di verifica rispetto a diversi livelli di descrizione linguistica (probing task) sia sul modello generale, sia su quello specializzato per la risoluzione del compito di classificazione per capire se è possibile identificare le competenze linguistiche che BERT utilizza nella risoluzione dello specifico compito di indagine. I risultati dell'analisi sono stati confrontati con quelli ottenuti da due classificatori tradizionali (Support Vector Machine e Random Forest) che utilizzano caratteristiche linguistiche esplicite.
File