ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-02222016-111907


Tipo di tesi
Tesi di laurea magistrale
Autore
DE LUCA, ANTONIO ERCOLE
URN
etd-02222016-111907
Titolo
Algoritmi di Active Learning applicati al problema dell'Entity Linking Pruning
Dipartimento
INFORMATICA
Corso di studi
INFORMATICA PER L'ECONOMIA E PER L'AZIENDA (BUSINESS INFORMATICS)
Relatori
relatore Prof. Ferragina, Paolo
correlatore Dott. Scaiella, Ugo
controrelatore Dott. Bacciu, Davide
Parole chiave
  • Wikipedia
  • SpazioDati
  • Regressione Logistica
  • Machine Learning
  • Natural Language Processing
  • Intelligenza Artificiale
  • Information Retrieval
  • CrowdSourcing
  • Information Extraction
  • CrowdFlower
Data inizio appello
11/03/2016
Consultabilità
Completa
Riassunto
Il problema affrontato nella tesi è stato quello di sviluppare una metodologia che permetta di adattare automaticamente un generico sistema di Entity Linking a nuovi contesti linguistici. Questo processo ha fatto uso di una piattaforma di CrowdSourcing che permette di sottoporre delle semplici domande (micro-task) ad un insieme di lavoratori: pagando un corrispettivo (di piccola entità) per il lavoro svolto.
Allo scopo di effettuare in maniera continuativa l'aggiornamento del sistema di Entity Linking è stato fatto uso di una tecnica di Active Learning che sceglie quali nuove istanze devono essere etichettate in modo da massimizzazione l'accuratezza della classificazione: l'Uncertainty Sampling.
Il lavoro di questa tesi è stato svolto come parte del tirocinio presso SpazioDati, una giovane azienda con sede a Pisa e Trento che si occupa di sistemi per l'analisi di Big Data; essa ha implementato internamente un proprio sistema di Entity Linking, detto Datatxt.
Le metodologie proposte in questa tesi sono state usate per l'addestramento e il perfezionamento di un modello di regressione logistica allo scopo di effettuare il Pruning dei risultati della fase disambiguazione di DataTxT.
File