ETD system

Electronic theses and dissertations repository

 

Tesi etd-02222016-111907


Thesis type
Tesi di laurea magistrale
Author
DE LUCA, ANTONIO ERCOLE
URN
etd-02222016-111907
Title
Algoritmi di Active Learning applicati al problema dell'Entity Linking Pruning
Struttura
INFORMATICA
Corso di studi
INFORMATICA PER L'ECONOMIA E PER L'AZIENDA (BUSINESS INFORMATICS)
Supervisors
relatore Prof. Ferragina, Paolo
correlatore Dott. Scaiella, Ugo
controrelatore Dott. Bacciu, Davide
Parole chiave
  • CrowdFlower
  • Wikipedia
  • Regressione Logistica
  • CrowdSourcing
  • SpazioDati
  • Natural Language Processing
  • Machine Learning
  • Information Retrieval
  • Intelligenza Artificiale
  • Information Extraction
Data inizio appello
11/03/2016;
Consultabilità
Parziale
Data di rilascio
11/03/2019
Riassunto analitico
Il problema affrontato nella tesi è stato quello di sviluppare una metodologia che permetta di adattare automaticamente un generico sistema di Entity Linking a nuovi contesti linguistici. Questo processo ha fatto uso di una piattaforma di CrowdSourcing che permette di sottoporre delle semplici domande (micro-task) ad un insieme di lavoratori: pagando un corrispettivo (di piccola entità) per il lavoro svolto.

Allo scopo di effettuare in maniera continuativa l'aggiornamento del sistema di Entity Linking è stato fatto uso di una tecnica di Active Learning che sceglie quali nuove istanze devono essere etichettate in modo da massimizzazione l'accuratezza della classificazione: l'Uncertainty Sampling.

Il lavoro di questa tesi è stato svolto come parte del tirocinio presso SpazioDati, una giovane azienda con sede a Pisa e Trento che si occupa di sistemi per l'analisi di Big Data; essa ha implementato internamente un proprio sistema di Entity Linking, detto Datatxt.
Le metodologie proposte in questa tesi sono state usate per l'addestramento e il perfezionamento di un modello di regressione logistica allo scopo di effettuare il Pruning dei risultati della fase disambiguazione di DataTxT.
File