Tipo di tesi
Tesi di dottorato di ricerca
Titolo
Misspellings in Natural Language Processing: An Interdisciplinary Investigation
Settore scientifico disciplinare
INF/01 - INFORMATICA
Corso di studi
DOTTORATO NAZIONALE IN INTELLIGENZA ARTIFICIALE
Parole chiave
- nlp, errori ortografici, errori, refusi
- nlp, misspellings, errors, noise
Data inizio appello
05/05/2026
Consultabilità
Non consultabile
Data di rilascio
05/05/2029
Riassunto (Inglese)
Modern NLP models often struggle with the non-standard language and misspellings in user-generated content. This thesis investigates misspelling phenomena through five complementary perspectives:
I. Background: A comprehensive review of NLP strategies for handling errors, from automatic correction and robust neural architectures to recent advances in Large Language Models (LLMs).
II. Linguistic: An analysis of how unintentional misspellings reflect a writer’s cognitive, cultural, or social identity.
III. Orthographic: An evaluation of orthographic robustness, testing whether NLP models can replicate the human ability to comprehend scrambled words.
IV. Phonetic: Using a purpose-built dataset of phonetic variants to assess performance impacts on linguistic models and LLMs.
V. Visual: An investigation into misspellings based on graphical similarities (homoglyphs like "rn" vs "m"). This section evaluates the efficacy of visually-grounded character embeddings in neural networks.
Taken together, these perspectives underscore the multifaceted nature of misspellings
in NLP and highlight the value of interdisciplinary approaches in addressing them. While
no single strategy proves sufficient on its own, integrating insights from multiple specialized domains offers promising directions for future research on building more robust
and cognitively inspired NLP systems.
Riassunto (Italiano)
I moderni modelli di NLP incontrano spesso difficoltà con il linguaggio non standard e i refusi tipici dei contenuti generati dagli utenti. Questa tesi indaga il fenomeno degli errori ortografici attraverso cinque prospettive complementari:
I. Background: Una rassegna completa delle strategie di NLP per la gestione degli errori, dalla correzione automatica alle architetture neurali robuste, fino ai recenti progressi nei Large Language Models (LLM).
II. Linguistica: Un'analisi di come i refusi involontari riflettano l'identità cognitiva, culturale o sociale di chi scrive.
III. Ortografica: Una valutazione della robustezza ortografica, volta a verificare se i modelli di NLP siano in grado di replicare la capacità umana di comprendere parole con lettere rimescolate.
IV. Fonetica: L'utilizzo di un dataset di varianti fonetiche, costruito ad hoc, per valutare l'impatto sulle prestazioni dei modelli linguistici e degli LLM.
V. Visiva: Un'indagine sui refusi basati su somiglianze grafiche (omografi come "rn" rispetto a "m"). Questa sezione valuta l'efficacia degli embedding di caratteri basati su informazioni visive nelle reti neurali.
Nel loro insieme, queste prospettive sottolineano la natura multiforme degli errori ortografici nel NLP e mettono in luce il valore degli approcci interdisciplinari nel affrontarli. Sebbene nessuna singola strategia si dimostri sufficiente da sola, l'integrazione di intuizioni provenienti da molteplici domini specializzati offre direzioni promettenti per la ricerca futura sulla creazione di sistemi di NLP più robusti e di ispirazione cognitiva.