ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-04102026-100624

Tipo di tesi

Tesi di dottorato di ricerca

URN

etd-04102026-100624

Titolo

Misspellings in Natural Language Processing: An Interdisciplinary Investigation

Settore scientifico disciplinare

INF/01 - INFORMATICA

Corso di studi

DOTTORATO NAZIONALE IN INTELLIGENZA ARTIFICIALE

Parole chiave

nlp, errori ortografici, errori, refusi
nlp, misspellings, errors, noise

Data inizio appello

05/05/2026

Consultabilità

Non consultabile

Data di rilascio

05/05/2029

Riassunto (Inglese)

Modern NLP models often struggle with the non-standard language and misspellings in user-generated content. This thesis investigates misspelling phenomena through five complementary perspectives:
I. Background: A comprehensive review of NLP strategies for handling errors, from automatic correction and robust neural architectures to recent advances in Large Language Models (LLMs).
II. Linguistic: An analysis of how unintentional misspellings reflect a writer’s cognitive, cultural, or social identity.
III. Orthographic: An evaluation of orthographic robustness, testing whether NLP models can replicate the human ability to comprehend scrambled words.
IV. Phonetic: Using a purpose-built dataset of phonetic variants to assess performance impacts on linguistic models and LLMs.
V. Visual: An investigation into misspellings based on graphical similarities (homoglyphs like "rn" vs "m"). This section evaluates the efficacy of visually-grounded character embeddings in neural networks.
Taken together, these perspectives underscore the multifaceted nature of misspellings
in NLP and highlight the value of interdisciplinary approaches in addressing them. While
no single strategy proves sufficient on its own, integrating insights from multiple specialized domains offers promising directions for future research on building more robust
and cognitively inspired NLP systems.

Riassunto (Italiano)

I moderni modelli di NLP incontrano spesso difficoltà con il linguaggio non standard e i refusi tipici dei contenuti generati dagli utenti. Questa tesi indaga il fenomeno degli errori ortografici attraverso cinque prospettive complementari:
I. Background: Una rassegna completa delle strategie di NLP per la gestione degli errori, dalla correzione automatica alle architetture neurali robuste, fino ai recenti progressi nei Large Language Models (LLM).
II. Linguistica: Un'analisi di come i refusi involontari riflettano l'identità cognitiva, culturale o sociale di chi scrive.
III. Ortografica: Una valutazione della robustezza ortografica, volta a verificare se i modelli di NLP siano in grado di replicare la capacità umana di comprendere parole con lettere rimescolate.
IV. Fonetica: L'utilizzo di un dataset di varianti fonetiche, costruito ad hoc, per valutare l'impatto sulle prestazioni dei modelli linguistici e degli LLM.
V. Visiva: Un'indagine sui refusi basati su somiglianze grafiche (omografi come "rn" rispetto a "m"). Questa sezione valuta l'efficacia degli embedding di caratteri basati su informazioni visive nelle reti neurali.
Nel loro insieme, queste prospettive sottolineano la natura multiforme degli errori ortografici nel NLP e mettono in luce il valore degli approcci interdisciplinari nel affrontarli. Sebbene nessuna singola strategia si dimostri sufficiente da sola, l'integrazione di intuizioni provenienti da molteplici domini specializzati offre direzioni promettenti per la ricerca futura sulla creazione di sistemi di NLP più robusti e di ispirazione cognitiva.

File

Nome file	Dimensione
La tesi non è consultabile. Contatta l’autore