logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-05262017-114159


Tipo di tesi
Tesi di laurea magistrale
Autore
CINQUESANTI, CARMELA
URN
etd-05262017-114159
Titolo
Sviluppo di un sistema di Relation Classification per il dominio della Pubblica Amministrazione
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Lenci, Alessandro
Parole chiave
  • relazioni semantiche
  • relation classification
  • pubblica amministrazione
  • machine learning
  • annotazione semantica
Data inizio appello
30/06/2017
Consultabilità
Completa
Riassunto
La tesi documenta il lavoro realizzato al fine di sviluppare un sistema di classificazione automatica in grado di riconoscere e classificare una serie di relazioni semantiche tra Named Entities all’interno di testi di dominio amministrativo. L’attività svolta si inserisce all’interno del progetto SEMPLICE (Semantic Instruments for Public Administrators and Citizens), relativo all’annotazione semantica di documenti appartenenti al dominio della Pubblica Amministrazione.
L’obiettivo finale del lavoro di tesi è quello di utilizzare le relazioni semantiche individuate nei testi per costruire un’ontologia di dominio; questa andrà poi a costituire la base per lo sviluppo di una piattaforma di servizi applicativi mirata alla gestione di documenti di tipo amministrativo, al fine di agevolare la ricerca di informazioni e la comunicazione tra cittadini ed enti pubblici.
Lo sviluppo del sistema di Relation Classification è stato affrontato definendo dapprima uno schema di annotazione per le relazioni semantiche e annotando una serie di testi da utilizzare come corpus di training; successivamente, sono stati addestrati e confrontati una serie di modelli di classificazione automatica basati sugli algoritmi di Naive Bayes e SVM, al fine di determinare il modello di classificazione migliore. Gli esperimenti, incentrati anche su un opportuno lavoro di feature selection, hanno decretato come vincente un modello basato su SVM.
-
The thesis documents the work aimed at the development of an automatic classification system capable of recognizing and classifying a series of semantic relations between Named Entities within texts of administrative domain. The activity carried out is part of the SEMPLICE project (Semantic Instruments for Public Administrators and Citizens), concerning the semantic annotation of documents belonging to the Public Administration domain.
The final objective of the thesis is to use the semantic relations identified in the texts to construct a domain ontology; this will then be the basis for the development of a platform of application services aimed at managing administrative documents, in order to facilitate the search for information and the communication between citizens and public administrations.
The development of the Relation Classification system was obtained by defining an annotation scheme for semantic relations, and then annotating a series of texts to use as a training corpus; subsequently, a series of automatic classification models based on Naive Bayes and SVM algorithms were trained and compared in order to determine the best classification model. The experiments, which also focused on an appropriate feature selection work, led to a model based on SVM.
File