Sistema ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

 

Tesi etd-06072018-165349


Tipo di tesi
Tesi di laurea magistrale
Autore
VALERIANI, MARTINA
URN
etd-06072018-165349
Titolo
Creazione di un corpus e primi esperimenti per l'identificazione automatica delle parti informative di un testo a supporto di un sistema di generazione di domande di comprensione.
Struttura
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Commissione
relatore Dott. Dell'Orletta, Felice
correlatore Dott.ssa Brunato, Dominique
Parole chiave
  • Linguistica Computazionale
  • Trattamento Automatico del Linguaggio Naturale
  • Dataset per Reading Comprehension
  • Question Answering
Data inizio appello
02/07/2018;
Consultabilità
completa
Riassunto analitico
Il lavoro si pone nell’ambito della costruzione di un corpus di reading comprehension e nella definizione di un metodo per identificare le parti informative di un testo. Il corpus è frutto di un lungo e accurato processo di analisi e annotazione manuale delle prove di comprensione elaborate da Invalsi. Tra gli obiettivi principali vi è stato quello di comprendere l’esistenza o meno di una corrispondenza lineare frase-domanda-risposta: cioè, capire se in una frase o in una sotto-porzione di essa fosse contenuta la risposta a una determinata domanda. Il tutto al fine di generare un corpus di addestramento a supporto di un sistema automatico di generazione di domande per la valutazione delle competenze di comprensione della lingua scritta. Per quanto riguarda la definizione del metodo di estrazione delle parti rilevanti, sono stati condotti degli esperimenti per valutare l'esistenza di una relazione significativa tra le caratteristiche linguistiche estratte dalle frasi e la probabilità che quest'ultime contengano la risposta a una possibile domanda. Infine è stato sviluppato un classificatore basato su Support Vector Machine per l'identificazione delle parti rilevanti del testo.
File