Tesi etd-10212025-175908 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
CARCIATI, SARA MARIA
URN
etd-10212025-175908
Titolo
Lo sviluppo di Baby Language Model dell'italiano: il caso dei modelli BAMBI
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
LINGUISTICA E TRADUZIONE
Relatori
relatore Prof. Lenci, Alessandro
correlatore Prof. Rovai, Francesco
correlatore Prof. Rovai, Francesco
Parole chiave
- applied linguistics
- baby language model
- BAMBI models
- transformer models
Data inizio appello
07/11/2025
Consultabilità
Non consultabile
Data di rilascio
07/11/2095
Riassunto
L’elaborato si propone come approfondimento sulle risorse di addestramento dei BabyLM, evidenziando l’importanza di usare input cognitivamente plausibili ed ecologici, caratterizzati da quantità limitate e volti a emulare l’esperienza linguistica infantile. La tesi rappresenta, inoltre, il correlato di un lavoro di tirocinio volto alla raccolta di dati per l’addestramento di BabyLM dell’italiano, i modelli BAMBI. Nei capitoli successivi verranno analizzati i dati raccolti e saranno presentate e commentate le prestazioni dei modelli BAMBI sottoposti a due benchmark di valutazione, BaBIES e Invalsi-ITA.
This thesis aims to provide an in-depth analysis of BabyLM training resources, highlighting the importance of using cognitively plausible and ecological inputs, characterised by limited quantities and designed to emulate the linguistic experience of children. The thesis also represents the correlation of an internship aimed at collecting data for the training of BabyLM in Italian, the BAMBI models. In the following chapters, the data collected will be analysed and the performance of the BAMBI models subjected to two evaluation benchmarks, BaBIES and Invalsi-ITA, will be presented and commented on.
This thesis aims to provide an in-depth analysis of BabyLM training resources, highlighting the importance of using cognitively plausible and ecological inputs, characterised by limited quantities and designed to emulate the linguistic experience of children. The thesis also represents the correlation of an internship aimed at collecting data for the training of BabyLM in Italian, the BAMBI models. In the following chapters, the data collected will be analysed and the performance of the BAMBI models subjected to two evaluation benchmarks, BaBIES and Invalsi-ITA, will be presented and commented on.
File
| Nome file | Dimensione |
|---|---|
La tesi non è consultabile. |
|