logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-01172024-220445


Thesis type
Tesi di laurea magistrale
Author
CIACCIO, CRISTIANO
URN
etd-01172024-220445
Thesis title
Lilium lunaris e quadrofono. Large Language Models e Neologia computazionale di neoformazioni lessicali italiane
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Prof. Dell'Orletta, Felice
correlatore Dott. Miaschi, Alessio
Keywords
  • neologia computazionale
  • neologia
  • linguistica
  • linguistica computazionale
  • large language models
  • T5
  • Multi Task Learning
  • creatività computazionale
  • generazione di neologismi
  • definition modeling
  • Wikizionario
  • parser
  • IT5
  • machine learning
  • NLP
  • natural language processing
  • computational neology
  • neology
  • linguistics
  • computational linguistics
  • large language models
  • T5
  • Multi Task Learning
  • computational creativity
  • neologism generation
  • definition modeling
  • Wiktionary
  • parser
  • IT5
  • machine learning
  • NLP
  • natural language processing
Graduation session start date
09/02/2024
Availability
Full
Summary
L'elaborato si concentra sulla generazione computazionale di neologismi. Si propone di definire l'area di ricerca "neologia computazionale". Tramite fine-tuning (specializzazione) di IT5, versione italiana del transformer T5, verrà addestrato un modello (in configurazione small, base e large) su un ventaglio di compiti (Multi Task Learning), fra cui la generazione di entrate lessicali date delle brevi definizioni. Per induzione, ciò permetterà di generare neologismi date glosse che non puntano ad un lemma specifico. Il corpus utilizzato per l'addestramento è stato estratto, tramite la realizzazione di un parser, dal Wikizionario. La risorsa, che comprende 370 mila entrate lessicali annotate con glosse, sinonimi, antonimi, esempi d'uso, trascrizione fonetica ed etimoliga, è rilasciata assieme al parser.
Dallo studio è emerso che il richiamo lessicale data una definizione, e viceversa, sono compiti particolarmente complessi che richiedono una comprensione di aspetti etimologici, fonologici e semantico-formali, e rappresentano una sfida adatta alle architetture attuali che, tuttavia, si sono rivelate capaci di eseguire, almeno in parte, quest compiti; modelli con più parametri sono più efficaci; la creatività computazionale rappresenta un elemento fondativo utile a comprendere ed affinare le capacità, linguistiche e non, dei modelli neurali del linguaggio.

The thesis focuses on the computational generation of neologisms. It's proposed to name the research area "computational neology". Through fine-tuning of IT5, an Italian version of the T5 transformer, a model (in small, basic and large configurations) will be trained on a range of tasks (Multi Task Learning), including the generation of lexical entries given short definitions. By induction, this will allow the generation of neologisms given glosses that do not point to a specific lemma. The corpus used for training was extracted, through the implementation of a parser, from the Wiktionary. The resource, which includes 370 thousand annotated lexical entries with glosses, synonyms, antonyms, usage examples, phonetic transcription and etymoliga, is released together with the parser.
The study found that lexical recall given a definition, and vice versa, are particularly complex tasks that require an understanding of etymological, phonological, and semantic-formal aspects, and represent a challenge suited to current architectures that, nevertheless, have proven capable of performing, at least in part, these tasks; models with more parameters are more effective; computational creativity represents a useful foundational element in understanding and refining the capabilities, linguistic and otherwise, of neural models of language.
File