Tesi etd-09132024-124235 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
BERGONZINI, ALICE
URN
etd-09132024-124235
Titolo
Curriculum Learning: Prospettive e Risultati nell’Addestramento di un LLM
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Dell'Orletta, Felice
correlatore Dott. Dini, Luca
correlatore Dott. Dini, Luca
Parole chiave
- AI
- Computational Linguistics
- Curriculum Learning
- Linguistica Computazionale
- LLM
- NLP
Data inizio appello
01/10/2024
Consultabilità
Completa
Riassunto
L'ambito di ricerca dei Large Language Models (LLM) è in continua esplorazione, ma il costo elevato del loro pre-addestramento rappresenta un ostacolo per un approccio completo all'argomento. Per questo motivo, è fondamentale formulare delle strategie in grado di ottimizzare il processo di pretraining di questi modelli. In questo studio, si propone di esplorare l'approccio del Curriculum Learning, una strategia di addestramento che consiste nel presentare al modello i dati di training seguendo un ordine di complessità crescente. In particolare, sono stati pre-addestrati diversi modelli BERT utilizzando strategie di ordinamento dei dati basate su due diversi indici di complessità: l'indice Gulpease e un indice calcolato attraverso lo strumento READ-IT. Questi modelli sono stati, poi, valutati e confrontati utilizzando la tecnica di Probing, in particolare sulle caratteristiche di Linguistic Profiling, e l'analisi della perplessità. Nonostante l'esperimento sia stato condotto con un numero ridotto di dati, sono emerse delle differenze interessanti: le due strategie basate sull’indice di READ-IT, pur essendo state applicate con un ordinamento opposto, si sono dimostrate le più efficaci, suggerendo che sia l’organizzazione dei dati, piuttosto che il loro ordine specifico, ad influire maggiormente sulle prestazioni del modello.
Research on Large Language Models (LLMs) is constantly evolving, but the significant cost associated with pre-training presents a barrier to fully exploring the topic. As a result, it is crucial to develop strategies that optimize the pretraining process for these models. This study explores the use of Curriculum Learning, a method where training data is introduced to the model in an order that gradually increases in complexity. Several BERT models were pre-trained with data sorting techniques based on two complexity measures: the Gulpease index and a metric derived from the READ-IT tool. After pre-training, these models were evaluated and compared using the Probing technique, focusing on Linguistic Profiling, and through perplexity analysis. Even though the experiment used a relatively small dataset, some notable differences were observed. The two strategies based on the READ-IT index, despite being ordered in reverse, turned out to be the most successful. This suggests that how the data is structured may play a more significant role in model performance than the specific order in which it is presented.
Research on Large Language Models (LLMs) is constantly evolving, but the significant cost associated with pre-training presents a barrier to fully exploring the topic. As a result, it is crucial to develop strategies that optimize the pretraining process for these models. This study explores the use of Curriculum Learning, a method where training data is introduced to the model in an order that gradually increases in complexity. Several BERT models were pre-trained with data sorting techniques based on two complexity measures: the Gulpease index and a metric derived from the READ-IT tool. After pre-training, these models were evaluated and compared using the Probing technique, focusing on Linguistic Profiling, and through perplexity analysis. Even though the experiment used a relatively small dataset, some notable differences were observed. The two strategies based on the READ-IT index, despite being ordered in reverse, turned out to be the most successful. This suggests that how the data is structured may play a more significant role in model performance than the specific order in which it is presented.
File
Nome file | Dimensione |
---|---|
Tesi_Mag...rning.pdf | 7.10 Mb |
Contatta l’autore |