ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-11172021-105127


Thesis type
Tesi di laurea magistrale
Author
MERENDI, FEDERICA
URN
etd-11172021-105127
Thesis title
Sulla natura di un Neural Language Model. Il caso di BERT nello studio dell’evoluzione delle competenze di scrittura di apprendenti italiano L1
Department
INFORMATICA
Course of study
DATA SCIENCE AND BUSINESS INFORMATICS
Supervisors
relatore Prof. Dell'Orletta, Felice
relatore Prof.ssa Monreale, Anna
Keywords
  • linguistica computazionale
  • interpretability
  • BERT
  • tracking evolution of written language competence
  • probing task
  • natural language processing
Graduation session start date
03/12/2021
Availability
Full
Summary
I Neural Language Model hanno rivoluzionato lo studio del trattamento automatico del linguaggio naturale, sia poiché hanno permesso di ottenere accuratezze mai raggiunte prima nella risoluzione di specifici compiti linguistici, sia perché hanno fornito un nuovo metodo di rappresentazione del testo. Il punto debole di questi modelli è la scarsa interpretabilità, ossia la difficoltà di comprendere i meccanismi che sono alla base delle loro scelte in fase di classificazione. All'interno di questo scenario, l'obiettivo di questa tesi è stato quello di interpretare le scelte del Neural Language Model BERT (Bidirectional Encoder Representations from Transformers) attraverso lo studio delle sue competenze linguistiche. Nello specifico si è scelto di studiare il comportamento di BERT nel compito di identificazione dell’evoluzione delle capacità di scrittura di apprendenti italiano L1, la cui risoluzione richiede competenze linguistiche raffinate e per questo può essere considerato uno scenario adatto per questo tipo di indagine. Al fine di studiare le competenze linguistiche di BERT si sono applicate una serie di test di verifica rispetto a diversi livelli di descrizione linguistica (probing task) sia sul modello generale, sia su quello specializzato per la risoluzione del compito di classificazione per capire se è possibile identificare le competenze linguistiche che BERT utilizza nella risoluzione dello specifico compito di indagine. I risultati dell'analisi sono stati confrontati con quelli ottenuti da due classificatori tradizionali (Support Vector Machine e Random Forest) che utilizzano caratteristiche linguistiche esplicite.
File