ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-03092015-162950


Tipo di tesi
Tesi di laurea magistrale
Autore
MARINELLI, LORENZO
URN
etd-03092015-162950
Titolo
Studio della complessità e della semplificazione linguistica a partire da un'analisi computazionale di un corpus parallelo di testi italiani.
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Dell'Orletta, Felice
correlatore Lenci, Alessandro
Parole chiave
  • nlp
  • linguistica computazionale
  • leggibilità
  • complessità
  • semplificazione
Data inizio appello
13/04/2015
Consultabilità
Completa
Riassunto
La Semplificazione Automatica di un Testo (ATS) è un task del Natural Language Processing che è stato sviluppato solamente a partire da tempi recenti. Il campo in questione è stato maggiormente esplorato nell'ambito della lingua inglese, mentre per altre lingue, tra le quali l'italiano, gli sforzi produttivi sono stati inferiori, soprattutto a causa della limitatezza delle risorse. In questa tesi viene descritto un progetto in fase di partenza all'interno dell'Istituto di Linguistica Computazionale (CNR di Pisa) che riguarda la ATS, ponendo una particolare attenzione alle risorse (i corpora Terence e Teacher), sulle quali è stato effettuato un approfondito monitoraggio linguistico. Vengono inoltre studiati gli effetti della semplificazione manuale di un testo (le diverse operazioni sono annotate nei diversi documenti che compongono i corpora), esaminando in che modo le distribuzioni di alcune delle caratteristiche linguistiche principali subiscono cambiamenti a seguito di particolari operazioni. Infine è stato esaminato in che modo l'inserimento di nuove parti del discorso come operazione di semplificazione (denominata Insert) sia funzionale per il compito che un futuro sistema di ATS andrà a svolgere.
File