logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-03092015-162950


Thesis type
Tesi di laurea magistrale
Author
MARINELLI, LORENZO
URN
etd-03092015-162950
Thesis title
Studio della complessità e della semplificazione linguistica a partire da un'analisi computazionale di un corpus parallelo di testi italiani.
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Dell'Orletta, Felice
correlatore Lenci, Alessandro
Keywords
  • complessità
  • leggibilità
  • linguistica computazionale
  • nlp
  • semplificazione
Graduation session start date
13/04/2015
Availability
Full
Summary
La Semplificazione Automatica di un Testo (ATS) è un task del Natural Language Processing che è stato sviluppato solamente a partire da tempi recenti. Il campo in questione è stato maggiormente esplorato nell'ambito della lingua inglese, mentre per altre lingue, tra le quali l'italiano, gli sforzi produttivi sono stati inferiori, soprattutto a causa della limitatezza delle risorse. In questa tesi viene descritto un progetto in fase di partenza all'interno dell'Istituto di Linguistica Computazionale (CNR di Pisa) che riguarda la ATS, ponendo una particolare attenzione alle risorse (i corpora Terence e Teacher), sulle quali è stato effettuato un approfondito monitoraggio linguistico. Vengono inoltre studiati gli effetti della semplificazione manuale di un testo (le diverse operazioni sono annotate nei diversi documenti che compongono i corpora), esaminando in che modo le distribuzioni di alcune delle caratteristiche linguistiche principali subiscono cambiamenti a seguito di particolari operazioni. Infine è stato esaminato in che modo l'inserimento di nuove parti del discorso come operazione di semplificazione (denominata Insert) sia funzionale per il compito che un futuro sistema di ATS andrà a svolgere.
File