logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-06072018-165349


Thesis type
Tesi di laurea magistrale
Author
VALERIANI, MARTINA
URN
etd-06072018-165349
Thesis title
Creazione di un corpus e primi esperimenti per l'identificazione automatica delle parti informative di un testo a supporto di un sistema di generazione di domande di comprensione.
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Dott. Dell'Orletta, Felice
correlatore Dott.ssa Brunato, Dominique
Keywords
  • Question Answering
  • Linguistica Computazionale
  • Dataset per Reading Comprehension
  • Trattamento Automatico del Linguaggio Naturale
Graduation session start date
02/07/2018
Availability
Withheld
Release date
02/07/2088
Summary
Il lavoro si pone nell’ambito della costruzione di un corpus di reading comprehension e nella definizione di un metodo per identificare le parti informative di un testo. Il corpus è frutto di un lungo e accurato processo di analisi e annotazione manuale delle prove di comprensione elaborate da Invalsi. Tra gli obiettivi principali vi è stato quello di comprendere l’esistenza o meno di una corrispondenza lineare frase-domanda-risposta: cioè, capire se in una frase o in una sotto-porzione di essa fosse contenuta la risposta a una determinata domanda. Il tutto al fine di generare un corpus di addestramento a supporto di un sistema automatico di generazione di domande per la valutazione delle competenze di comprensione della lingua scritta. Per quanto riguarda la definizione del metodo di estrazione delle parti rilevanti, sono stati condotti degli esperimenti per valutare l'esistenza di una relazione significativa tra le caratteristiche linguistiche estratte dalle frasi e la probabilità che quest'ultime contengano la risposta a una possibile domanda. Infine è stato sviluppato un classificatore basato su Support Vector Machine per l'identificazione delle parti rilevanti del testo.
File