logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-01172024-220445


Thesis type
Tesi di laurea magistrale
Author
CIACCIO, CRISTIANO
URN
etd-01172024-220445
Thesis title
Lilium lunaris e quadrofono. Large Language Models e Neologia computazionale di neoformazioni lessicali italiane
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Prof. Dell'Orletta, Felice
correlatore Dott. Miaschi, Alessio
Keywords
  • computational creativity
  • computational linguistics
  • computational neology
  • creatività computazionale
  • definition modeling
  • definition modeling
  • generazione di neologismi
  • IT5
  • IT5
  • large language models
  • large language models
  • linguistica
  • linguistica computazionale
  • linguistics
  • machine learning
  • machine learning
  • Multi Task Learning
  • Multi Task Learning
  • natural language processing
  • natural language processing
  • neologia
  • neologia computazionale
  • neologism generation
  • neology
  • NLP
  • NLP
  • parser
  • parser
  • T5
  • T5
  • Wikizionario
  • Wiktionary
Graduation session start date
09/02/2024
Availability
Full
Summary
L'elaborato si concentra sulla generazione computazionale di neologismi. Si propone di definire l'area di ricerca "neologia computazionale". Tramite fine-tuning (specializzazione) di IT5, versione italiana del transformer T5, verrà addestrato un modello (in configurazione small, base e large) su un ventaglio di compiti (Multi Task Learning), fra cui la generazione di entrate lessicali date delle brevi definizioni. Per induzione, ciò permetterà di generare neologismi date glosse che non puntano ad un lemma specifico. Il corpus utilizzato per l'addestramento è stato estratto, tramite la realizzazione di un parser, dal Wikizionario. La risorsa, che comprende 370 mila entrate lessicali annotate con glosse, sinonimi, antonimi, esempi d'uso, trascrizione fonetica ed etimoliga, è rilasciata assieme al parser.
Dallo studio è emerso che il richiamo lessicale data una definizione, e viceversa, sono compiti particolarmente complessi che richiedono una comprensione di aspetti etimologici, fonologici e semantico-formali, e rappresentano una sfida adatta alle architetture attuali che, tuttavia, si sono rivelate capaci di eseguire, almeno in parte, quest compiti; modelli con più parametri sono più efficaci; la creatività computazionale rappresenta un elemento fondativo utile a comprendere ed affinare le capacità, linguistiche e non, dei modelli neurali del linguaggio.

The thesis focuses on the computational generation of neologisms. It's proposed to name the research area "computational neology". Through fine-tuning of IT5, an Italian version of the T5 transformer, a model (in small, basic and large configurations) will be trained on a range of tasks (Multi Task Learning), including the generation of lexical entries given short definitions. By induction, this will allow the generation of neologisms given glosses that do not point to a specific lemma. The corpus used for training was extracted, through the implementation of a parser, from the Wiktionary. The resource, which includes 370 thousand annotated lexical entries with glosses, synonyms, antonyms, usage examples, phonetic transcription and etymoliga, is released together with the parser.
The study found that lexical recall given a definition, and vice versa, are particularly complex tasks that require an understanding of etymological, phonological, and semantic-formal aspects, and represent a challenge suited to current architectures that, nevertheless, have proven capable of performing, at least in part, these tasks; models with more parameters are more effective; computational creativity represents a useful foundational element in understanding and refining the capabilities, linguistic and otherwise, of neural models of language.
File