logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03212024-150152


Tipo di tesi
Tesi di laurea magistrale
Autore
GULLACE, VIOLA
URN
etd-03212024-150152
Titolo
How Do Pretrained Language Models Deal with Negation? The case of Italian
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
LINGUISTICA E TRADUZIONE
Relatori
relatore Lenci, Alessandro
correlatore Poibeau, Thierry
tutor Kletz, David
Parole chiave
  • Bert
  • GPT-3
  • negation
  • pretrained models
  • probing
Data inizio appello
05/04/2024
Consultabilità
Completa
Riassunto
I modelli distribuzionali del linguaggio, in particolare i modelli pretrained basati sull'architettura Transformer, sono stati al centro di un rapido progresso dei modelli linguistici computazionali. Recentemente, molti lavori di ricerca si sono concentrati sul comprendere se la negazione (così come altri fenomeni linguistici) sia tenuta in considerazione dai modelli più avanzati, con risultati spesso contraddittori. In questo lavoro ci proponiamo di studiare la comprensione della negazione nei modelli pretrained, estendendo questo ambito di ricerca all'italiano, a differenza della maggior parte dei lavori precedenti incentrati sull'inglese. Nello specifico, elaboriamo due serie di test. Nel primo, verifichiamo se alcuni modelli (in questo caso alcuni modelli basati su BERT e GPT-3) modificano le loro previsioni in un compito di masked prediction in base ai vincoli posti dalla polarità di una frase. Dimostriamo così che i modelli, in particolare quelli basati su BERT, tendono a ignorare tali vincoli. Nel secondo, studiamo come la polarità di una frase viene codificata da BERT e come questa codifica possa influenzare la comprensione della negazione da parte del modello. Abbiamo concluso che i modelli pretrained non hanno una chiara comprensione di come la negazione cambi il significato di una frase, e che mentre la presenza della negazione sembra essere chiaramente codificata dai modelli, la sua assenza non lo è altrettanto.

Distributional models of language, in particular pretrained models based on the Transformer architecture, have been at the heart of a rapid progress in the state-of-the-art language models. Recently, many research works have been focused on understanding the extent to which negation (as well as other linguistic phenomena) is accounted for by state-of-the-art models, and their results were ofter contradictory. What we set out to do in this work is to study the understanding of negation in pretrained models, and to enlarge the scope of the research to Italian, unlike most of the previous works that was centered on English. Specifically, we design two sets of tests. In the first, we test whether the target models (BERT-like models and GPT-3) change their predictions on a masked prediction task according to the constraints posed by the polarity of a sentence. We thus show that the models, in particular BERT-like models, do not adapt their behaviour to the polarity of the sentences. On the second, we study how the polarity of a sentence is encoded by a BERT-based model, and how this encoding could affect the model's understanding of negation. We concluded that pretrained models do not have a clear understanding of how negation should change its understanding of a sentence, and that while presence of negation seems to be clearly encoded by the models, its absence is not.
File