logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-05192009-110522


Tipo di tesi
Tesi di laurea specialistica
Autore
MARCHEGGIANI, DIEGO
URN
etd-05192009-110522
Titolo
Active learning per estrazione di informazioni
Dipartimento
SCIENZE MATEMATICHE, FISICHE E NATURALI
Corso di studi
INFORMATICA
Relatori
Relatore Dott. Sebastiani, Fabrizio
Relatore Dott. Esuli, Andrea
Parole chiave
  • active learning
  • information extraction
  • information retrieval
  • machine learning
Data inizio appello
05/06/2009
Consultabilità
Completa
Riassunto
L'active learning si occupa di definire una funzione di ranking che, dato un classificatore derivato da relativamente pochi esempi di training, ordina un insieme di esempi non etichettati in termini di quanta informazione ciascuno apporterebbe, a una fase di re-training che cerchi di ottenere un classificatore migliore.
In questa tesi proponiamo e testiamo alcune strategie realistiche di active learning per l'estrazione dell'informazione, e in particolare per il subtask della named entity recognition. Ogni strategia consiste in una regola che prende gli output del classificatore per ogni singola occorrenza di parola (token), li combina creando un valore per la frase a cui i token appartengono, e ordina le frasi non etichettate in base al valore che esse hanno ricevuto. Presentiamo i risultati di alcuni esperimenti sul corpus CoNLL 2003, uno dei corpora standard per la sperimentazione sulla named entity recognition.
File