Tesi etd-09112024-220638

Tipo di tesi

Tesi di laurea magistrale

Autore

LABARDI, LUCREZIA

URN

etd-09112024-220638

Titolo

L'impatto dell'ordinamento dei dati nei Large Language Models: uno studio sul Curriculum Learning

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Relatori

relatore Dell'Orletta, Felice
correlatore Dini, Luca

Parole chiave

Curriculum learning
Large language models
modelli di linguaggio
Nlp

Data inizio appello

01/10/2024

Consultabilità

Completa

Riassunto

Questa tesi si concentra sull'analisi dell'impatto dell'ordinamento dei dati nei Large Language Models, con un focus particolare sul Curriculum Learning (CL). Il CL è una tecnica di machine learning che mira a migliorare l'efficacia e l'efficienza dell'addestramento organizzando i dati secondo un criterio di complessità crescente. L'idea di fondo è ispirata all'apprendimento umano: dai concetti più semplici prima di quelli più complessi, e seguire questo principio nei modelli di apprendimento automatico potrebbe portare a miglioramenti nelle prestazioni. Nello specifico, questa tesi ha adottato gli indici di leggibilità Gulpease e Read-It per classificare la difficoltà dei dati di addestramento. L'esperimento condotto ha coinvolto l'addestramento di nove modelli BERT da zero, utilizzando frasi tratte da Wikipedia ordinati secondo i criteri del CL. Ogni modello ha avuto lo stesso numero di parametri e architettura, ma è stato addestrato con dati ordinati in modo diverso. L'efficacia dei modelli è stata misurata attraverso due tecniche principali: il probing e il calcolo della confidenza, basato sulla pseudo-perplexity.
Il probing è una tecnica che permette di valutare come i modelli di linguaggio organizzano e rappresentano diverse caratteristiche linguistiche al loro interno. In questo studio, sono state selezionate 26 diverse feature linguistiche per misurare la capacità dei modelli di apprendere aspetti come le Parts-of-Speech, la sintassi, la subordinazione e la complessità delle frasi. Le performance dei modelli su questi aspetti sono state analizzate durante le diverse fasi di addestramento per valutare l'evoluzione delle competenze linguistiche in relazione all'ordinamento dei dati. I risultati hanno evidenziato che i modelli addestrati con un approccio di Curriculum Learning mostrano un'organizzazione più chiara e strutturata delle rappresentazioni linguistiche nei vari layer rispetto ai modelli addestrati con un ordine casuale o inverso. Le caratteristiche più semplici, come le PoS, vengono apprese nei primi strati dei modelli, mentre quelle più complesse, come la struttura sintattica e la subordinazione, emergono negli strati intermedi. La misurazione della confidenza, invece, è stata effettuata utilizzando la pseudo-perplexity, una metrica che valuta quanto una certa sequenza di parole è plausibile. I risultati ottenuti hanno mostrato che i modelli addestrati con l'approccio CL tendono a essere meno sorpresi da frasi lunghe o complesse rispetto a quelli addestrati in modo casuale. In particolare, i modelli ordinati in base all'indice Read-It hanno mostrato prestazioni migliori su frasi di 25-30 token, rispetto a quelli ordinati secondo l'indice Gulpease, che invece hanno avuto più difficoltà con frasi più lunghe. Questi risultati suggeriscono che l'ordine dei dati di addestramento influenza in modo significativo la capacità dei modelli di comprendere il contesto linguistico nelle frasi.
In sintesi, la tesi ha dimostrato che l'applicazione del Curriculum Learning nei modelli di linguaggio può portare a miglioramenti nelle capacità di generalizzazione e nell'organizzazione interna delle rappresentazioni linguistiche. Tuttavia, l'efficacia del CL dipende fortemente dai criteri di ordinamento scelti. L'uso di indici di leggibilità come Read-It sembra offrire vantaggi significativi rispetto ad altri criteri come Gulpease, specialmente nel trattamento di frasi più lunghe e complesse. Questo studio fornisce un'importante base per future ricerche sul miglioramento delle tecniche di addestramento dei modelli di linguaggio, rendendoli più efficienti e simili al modo in cui gli esseri umani apprendono linguaggi naturali.

This thesis focuses on analyzing the impact of data ordering in Large Language Models (LLMs), with a particular focus on Curriculum Learning (CL). CL is a machine learning technique aimed at improving the effectiveness and efficiency of training by organizing data based on increasing complexity. The underlying idea is inspired by human learning: starting with simpler concepts before progressing to more complex ones, and applying this principle in automatic learning models could lead to performance improvements. Specifically, this thesis adopted the readability indices Gulpease and Read-It to classify the difficulty of the training data.
The experiment involved training nine BERT models from scratch, using sentences from Wikipedia, ordered according to CL criteria. Each model had the same number of parameters and architecture, but the data was presented in different orders during training. The effectiveness of the models was measured using two main techniques: probing and confidence calculation based on pseudo-perplexity.
Probing is a technique used to assess how language models organize and represent various linguistic features internally. In this study, 26 different linguistic features were selected to measure the models' ability to learn aspects such as Parts-of-Speech (PoS), syntax, subordination, and sentence complexity. The models' performance on these aspects was analyzed throughout the various training phases to evaluate the evolution of linguistic competencies in relation to data ordering. The results showed that models trained using Curriculum Learning exhibited a clearer and more structured organization of linguistic representations across different layers compared to models trained with random or inverse data orders. Simpler features, such as PoS, were learned in the early layers, while more complex features, such as syntactic structure and subordination, emerged in the intermediate layers.
Confidence measurement was carried out using pseudo-perplexity, a metric that evaluates how plausible a given sequence of words is. The results indicated that models trained with the CL approach were less surprised by longer or more complex sentences compared to those trained randomly. In particular, models ordered based on the Read-It index performed better on sentences of 25-30 tokens, while those ordered by the Gulpease index struggled more with longer sentences. These findings suggest that the order of training data significantly influences the models' ability to understand the linguistic context within sentences.
In conclusion, the thesis demonstrated that applying Curriculum Learning in language models can lead to improvements in generalization capabilities and the internal organization of linguistic representations. However, the effectiveness of CL heavily depends on the chosen ordering criteria. The use of readability indices such as Read-It appears to offer significant advantages over other criteria, like Gulpease, especially when handling longer and more complex sentences. This study provides a solid foundation for future research on improving training techniques for language models, making them more efficient and akin to how humans learn natural languages.

File

Nome file	Dimensione
Lucrezia...trale.pdf	1.70 Mb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-09112024-220638