Tesi etd-02222016-111907 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
DE LUCA, ANTONIO ERCOLE
URN
etd-02222016-111907
Titolo
Algoritmi di Active Learning applicati al problema dell'Entity Linking Pruning
Dipartimento
INFORMATICA
Corso di studi
INFORMATICA PER L'ECONOMIA E PER L'AZIENDA (BUSINESS INFORMATICS)
Relatori
relatore Prof. Ferragina, Paolo
correlatore Dott. Scaiella, Ugo
controrelatore Dott. Bacciu, Davide
correlatore Dott. Scaiella, Ugo
controrelatore Dott. Bacciu, Davide
Parole chiave
- CrowdFlower
- CrowdSourcing
- Information Extraction
- Information Retrieval
- Intelligenza Artificiale
- Machine Learning
- Natural Language Processing
- Regressione Logistica
- SpazioDati
- Wikipedia
Data inizio appello
11/03/2016
Consultabilità
Completa
Riassunto
Il problema affrontato nella tesi è stato quello di sviluppare una metodologia che permetta di adattare automaticamente un generico sistema di Entity Linking a nuovi contesti linguistici. Questo processo ha fatto uso di una piattaforma di CrowdSourcing che permette di sottoporre delle semplici domande (micro-task) ad un insieme di lavoratori: pagando un corrispettivo (di piccola entità) per il lavoro svolto.
Allo scopo di effettuare in maniera continuativa l'aggiornamento del sistema di Entity Linking è stato fatto uso di una tecnica di Active Learning che sceglie quali nuove istanze devono essere etichettate in modo da massimizzazione l'accuratezza della classificazione: l'Uncertainty Sampling.
Il lavoro di questa tesi è stato svolto come parte del tirocinio presso SpazioDati, una giovane azienda con sede a Pisa e Trento che si occupa di sistemi per l'analisi di Big Data; essa ha implementato internamente un proprio sistema di Entity Linking, detto Datatxt.
Le metodologie proposte in questa tesi sono state usate per l'addestramento e il perfezionamento di un modello di regressione logistica allo scopo di effettuare il Pruning dei risultati della fase disambiguazione di DataTxT.
Allo scopo di effettuare in maniera continuativa l'aggiornamento del sistema di Entity Linking è stato fatto uso di una tecnica di Active Learning che sceglie quali nuove istanze devono essere etichettate in modo da massimizzazione l'accuratezza della classificazione: l'Uncertainty Sampling.
Il lavoro di questa tesi è stato svolto come parte del tirocinio presso SpazioDati, una giovane azienda con sede a Pisa e Trento che si occupa di sistemi per l'analisi di Big Data; essa ha implementato internamente un proprio sistema di Entity Linking, detto Datatxt.
Le metodologie proposte in questa tesi sono state usate per l'addestramento e il perfezionamento di un modello di regressione logistica allo scopo di effettuare il Pruning dei risultati della fase disambiguazione di DataTxT.
File
Nome file | Dimensione |
---|---|
tesi.pdf | 1.18 Mb |
Contatta l’autore |