logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03122012-080128


Tipo di tesi
Tesi di laurea specialistica
Autore
URCIUOLI, ILARIA CLARA
URN
etd-03122012-080128
Titolo
Estrazione di news da canali RSS: un approccio basato sull'annotazione semantica
Dipartimento
INTERFACOLTA'
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Ferragina, Paolo
Parole chiave
  • semantica
  • news
  • feed
  • rss
Data inizio appello
12/04/2012
Consultabilità
Non consultabile
Data di rilascio
12/04/2052
Riassunto
Questa tesi nasce con l'obiettivo di esplorare l'utilizzo dell'annotazione semantica di testi brevi nella ricerca di news inserite in canali RSS. Alla base dell'annotazione c'è la conoscenza messa a disposizione da Wikipedia, sotto forma di pagine dell'enciclopedia e di link tra esse.
Viene qui proposto un nuovo approccio che utilizza l'annotatore TAGME, sviluppato presso il Dipartimento di Informatica della nostra Università, per individuare e annotare concetti rilevanti contenuti in una news (in questo caso nel suo titolo e nella sua descrizione), e una misura di similarita tra il concetto cercato e quelli individuati nelle news in input.
L'ecacia dell'approccio proposto e stata valutata su un corpus appositamente creato e consistente di 4195 news estratte da quattro feed e pubblicate
dal 2 al 14 settembre 2011. I feed sono quelli relativi a due quotidiani (Corriere della Sera e la Repubblica), un'agenzia di stampa (ANSA) e un
sito specialistico (Punto Informatico).
Sono state poi create 30 query costituite ognuna da un concetto e dalla forma testuale comunemente utilizzata per esprimerlo. Ogni news del corpus è stata poi annotata, specificando per quali delle 30 query essa risulta rilevante.
I risultati ottenuti dal nostro approccio sono stati confrontati con quelli ottenuti da altri due algoritmi che rappresentano lo scenario di riferimento per i sistemi moderni di ricerca/alerting sulle/di news. In generale l'approccio basato su tagme ottiene una misura F1 pari a 60,9%, circa 2 punti migliore di quella ottenibile dagli altri due approcci sperimentati.
File