ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10212023-135853

Tipo di tesi

Tesi di laurea magistrale

URN

etd-10212023-135853

Titolo

Il ruolo del contesto nella percezione di complessità della frase: un'indagine linguistico-computazionale

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Parole chiave

BERT
caratteristiche linguistiche
complessità linguistica percepita
contesto
context
giudizio umano
human judgement
linguistic features
NLP
perceived language complexity
trattamento automatico del linguaggio

Data inizio appello

09/11/2023

Consultabilità

Completa

Riassunto (Inglese)

Riassunto (Italiano)

Il presente lavoro di tesi rappresenta un'indagine linguistico-computazionale sul tema della complessità linguistica. La complessità viene studiata in termini di "percezione" degli esseri umani, cioè dal punto di vista esclusivamente soggettivo di utenti chiamati ad esprimere un giudizio sul grado di difficoltà di una frase.
La ricerca mira a confrontare la complessità percepita di due scenari sperimentali differenti: nel primo le frasi vengono presentate singolarmente, cioè senza contesto, nel secondo si trovano invece all'interno di una finestra contestuale. La prima parte dell'analisi cerca di rispondere ai seguenti interrogativi: come cambia il giudizio di complessità quando interviene il contesto? Che tipo di relazione sussiste tra uno scenario e l'altro? In particolare, si cerca di comprendere quali fenomeni linguistici influenzino la percezione degli esseri umani, investigando il rapporto tra il punteggio assegnato e un ampio ventaglio di caratteristiche linguistiche della frase, lessicali, morfosintattiche e sintattiche, sia che essa si trovi "isolata" sia che venga contestualizzata.
La seconda parte si concentra invece sulla prospettiva computazionale: come percepiscono la complessità gli strumenti di analisi automatica del linguaggio? Quali fattori linguistici prendono in considerazione? Vengono confrontate le performance di due modelli differenti in un task di predizione del giudizio di complessità: un "semplice" regressore lineare, che sfrutta direttamente le caratteristiche linguistiche della frase, e un neural language model, BERT, basato invece su un'architettura neurale più complessa in cui l'informazione linguistica viene codificata implicitamente. Anche in questo caso, l'analisi viene condotta in ottica comparativa tra lo scenario in isolamento e quello in contesto: i risultati sono esaminati in relazione alla similarità con quelli dagli essere umani, nel tentativo di comprendere se e quanto la "macchina" sia capace di percepire la complessità e sulla base di quali fattori linguistici.
L'evidenza sperimentale dimostra che il contesto riveste un ruolo effettivamente discriminante nella percezione di complessità, esercitando un impatto non soltanto sul giudizio assegnato e sulla tipologia di informazione linguistica processata dagli esseri umani, ma anche sul "comportamento" dei modelli computazionali. Infine, i risultati evidenziano come il modello basato sulle caratteristiche linguistiche esplicite superi in prestazioni il modello neurale nel caso della predizione della complessità in contesto, sottolineando quanto sia ancora importante considerare i vari livelli di descrizione linguistica nello studio della complessità, in particolare per scopi di semplificazione e leggibilità del testo.

This thesis represents a computational-linguistic investigation into the theme of linguistic complexity. Complexity is here studied in terms of the "perception" of human beings, that is, from the exclusively subjective perspective of users asked to express a judgment on the degree of difficulty of a sentence.
The research aims to compare the perceived complexity of two different experimental scenarios: in the first one sentences are presented individually, while in the second one they appear within a contextual window. The first part of the analysis seeks to answer the following questions: how does the judgment of complexity change when context is involved? What kind of relationship exists between the two scenarios? In particular, it seeks to understand which linguistic phenomena influence human perception, investigating the relationship between the assigned score and a wide range of lexical, morpho-syntactic and syntactic features of the sentence, whether it is "isolated" or contextualized.
The second part, on the other hand, focuses on the computational perspective: how do natural language processing tools perceive complexity? Which linguistic factors do they take into account? The performances of two different models have been compared in a complexity score prediction task: a "simple" linear regressor, which directly leverages the linguistic features of the sentence, is compared with a neural language model, BERT, based on a more complex neural architecture where linguistic information is implicitly embedded. In this case as well, the analysis is conducted from a comparative perspective between the solo-rated scenario and the contextual one: the results are examined in relation to their similarity to those of human beings, in order to understand if and to what extent the "machine" is also capable of perceiving complexity and on which linguistic basis.
Experimental evidence demonstrates that context actually plays a discriminating role in the perception of complexity, impacting not only the assigned judgment and the type of linguistic information processed by humans, but also the "behavior" of computational models.
Finally, the results highlight how the model based on explicit linguistic features outperforms the neural model in the case of prediction in context, emphasizing the importance of considering various levels of linguistic description in the study of complexity, especially for text simplification and text readability purposes.

File

Nome file	Dimensione
TesiFina...la_LM.pdf	2.34 Mb
Contatta l’autore