Tesi etd-09132024-124235

Tipo di tesi

Tesi di laurea magistrale

Autore

BERGONZINI, ALICE

URN

etd-09132024-124235

Titolo

Curriculum Learning: Prospettive e Risultati nell’Addestramento di un LLM

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Relatori

relatore Prof. Dell'Orletta, Felice
correlatore Dott. Dini, Luca

Parole chiave

AI
Computational Linguistics
Curriculum Learning
Linguistica Computazionale
LLM
NLP

Data inizio appello

01/10/2024

Consultabilità

Completa

Riassunto

L'ambito di ricerca dei Large Language Models (LLM) è in continua esplorazione, ma il costo elevato del loro pre-addestramento rappresenta un ostacolo per un approccio completo all'argomento. Per questo motivo, è fondamentale formulare delle strategie in grado di ottimizzare il processo di pretraining di questi modelli. In questo studio, si propone di esplorare l'approccio del Curriculum Learning, una strategia di addestramento che consiste nel presentare al modello i dati di training seguendo un ordine di complessità crescente. In particolare, sono stati pre-addestrati diversi modelli BERT utilizzando strategie di ordinamento dei dati basate su due diversi indici di complessità: l'indice Gulpease e un indice calcolato attraverso lo strumento READ-IT. Questi modelli sono stati, poi, valutati e confrontati utilizzando la tecnica di Probing, in particolare sulle caratteristiche di Linguistic Profiling, e l'analisi della perplessità. Nonostante l'esperimento sia stato condotto con un numero ridotto di dati, sono emerse delle differenze interessanti: le due strategie basate sull’indice di READ-IT, pur essendo state applicate con un ordinamento opposto, si sono dimostrate le più efficaci, suggerendo che sia l’organizzazione dei dati, piuttosto che il loro ordine specifico, ad influire maggiormente sulle prestazioni del modello.

Research on Large Language Models (LLMs) is constantly evolving, but the significant cost associated with pre-training presents a barrier to fully exploring the topic. As a result, it is crucial to develop strategies that optimize the pretraining process for these models. This study explores the use of Curriculum Learning, a method where training data is introduced to the model in an order that gradually increases in complexity. Several BERT models were pre-trained with data sorting techniques based on two complexity measures: the Gulpease index and a metric derived from the READ-IT tool. After pre-training, these models were evaluated and compared using the Probing technique, focusing on Linguistic Profiling, and through perplexity analysis. Even though the experiment used a relatively small dataset, some notable differences were observed. The two strategies based on the READ-IT index, despite being ordered in reverse, turned out to be the most successful. This suggests that how the data is structured may play a more significant role in model performance than the specific order in which it is presented.

File

Nome file	Dimensione
Tesi_Mag...rning.pdf	7.10 Mb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-09132024-124235