logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-05132024-162230


Thesis type
Tesi di laurea magistrale
Author
MONDELLA, IRENE
URN
etd-05132024-162230
Thesis title
L’ha scritto un’AI? Analisi del profilo linguistico e valutazione umana di testi artificiali
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Prof. Dell'Orletta, Felice
relatore Prof.ssa Nissim, Malvina
Keywords
  • human evaluation
  • language model
  • linguistic profile
  • modello linguistico
  • natural language processing
  • profilo linguistico
  • valutazione umana
Graduation session start date
28/05/2024
Availability
None
Summary
Negli ultimi anni, si è vista una proliferazione di modelli linguistici generativi, creati adoperando il paradigma pre-training/fine-tuning, e sono frequenti i casi in cui i dati di fine-tuning sono artificiali, generati automaticamente da un altro Large Language Model quale ChatGPT. Questa tesi ha l'obiettivo di valutare l'impatto del post-editing umano di tali dati artificiali, utilizzati per addestrare modelli linguistici di varie dimensioni. All'interno della tesi è stato definito il processo di post-editing, sono stati mostrati i tempi necessari per svolgerlo e le sue complessità intrinseche, e sono stati analizzati i risultati di tale operazione. È emerso che il post-editing dei dati di fine-tuning permette di ottenere modelli che generano testi di migliore qualità, come dimostrato tramite una campagna di valutazione umana. Inoltre, il post-editing porta a significative variazioni del profilo linguistico dei testi generati. Le valutazioni umane raccolte sono state utilizzate per creare due nuove metriche di valutazione apprese, che raggiungono buone correlazioni positive con il giudizio umano.

In recent years, there has been a proliferation of generative language models, created using the pre-training/fine-tuning paradigm, and frequently the fine-tuning data is artificial, automatically generated by another Large Language Model such as ChatGPT. The aim of this thesis is to evaluate the impact of human post-editing of such artificial data, used to train language models of various dimensions. Within this thesis, we define the post-editing process, and we show the time required to perform it and its inherent complexities, and we analyse the results of this operation. It emerged that post-editing of fine-tuning data results in models generating better quality text, as demonstrated through a human evaluation campaign. Furthermore, post-editing leads to significant changes in the linguistic profile of the generated texts. The collected human evaluations were used to create two new learned evaluation metrics, which achieve good positive correlations with human judgement.
File