logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-10232024-151224


Thesis type
Tesi di laurea magistrale
Author
CERULLI, ALDO
URN
etd-10232024-151224
Thesis title
Dalla percezione umana alla valutazione automatica: modellare la qualità di testi scritti da apprendenti italiano L1 in età scolastica
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Dott. Dell'Orletta, Felice
relatore Dott.ssa Brunato, Dominique
Keywords
  • apprendimento automatico
  • machine learning
  • qualità della scrittura
  • scrittura
  • writing quality
Graduation session start date
08/11/2024
Availability
None
Summary
Questa tesi si inserisce in una linea di ricerca che analizza e modella computazionalmente il legame tra le proprietà linguistiche dei testi e i giudizi di qualità espressi da valutatori umani. Si tratta del primo contributo in questa direzione che prende in esame testi prodotti da apprendenti italiani. Ai fini di questo studio, è stato adottato un approccio comparativo alla valutazione della qualità di scrittura: confrontando coppie di elaborati, è stato richiesto agli annotatori di indicare quale dei due testi considerassero di qualità superiore. La raccolta dei dati si è configurata come compito di crowdsourcing. Trenta questionari, costituiti da dieci coppie di produzioni ciascuno, sono stati distribuiti a italiani maggiorenni sia su una piattaforma online di crowdsourcing sia per via diretta su reti sociali e sistemi di messaggistica. I testi inclusi nei questionari sono stati estratti a partire da un corpus di 1352 temi raccolti nei primi due anni di scuola secondaria di primo grado in sette istituti romani. I dati raccolti sono stati utilizzati per costruire sistemi di apprendimento automatico, basati su approcci sia tradizionali che neurali, che fossero in grado di simulare il processo di valutazione svolto dagli umani.

This thesis is part of a line of research that analyzes and computationally models the link between linguistic properties of written productions and quality judgments made by human evaluators. This is the first contribution in this direction to examine texts in Italian. We adopted a comparative approach for writing quality assessment: comparing pairs of essays, annotators were asked to indicate which of the two texts they considered to be better written. Data were collected through a crowdsourcing task. Thirty questionnaires, consisting of ten pairs of productions each, were distributed to Italians over the age of 18 either on an online crowdsourcing platform or directly on social networks and messaging systems. The productions included in the questionnaires were extracted from a corpus of 1352 essays collected in the first two years of lower secondary school in seven schools in Rome. The collected data were used to build machine learning systems, based on both conventional and neural approaches, that were able to simulate the assessment process carried out by humans.
File