Tesi etd-03122012-080128 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea specialistica
Autore
URCIUOLI, ILARIA CLARA
URN
etd-03122012-080128
Titolo
Estrazione di news da canali RSS: un approccio basato sull'annotazione semantica
Dipartimento
INTERFACOLTA'
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Ferragina, Paolo
Parole chiave
- feed
- news
- rss
- semantica
Data inizio appello
12/04/2012
Consultabilità
Non consultabile
Data di rilascio
12/04/2052
Riassunto
Questa tesi nasce con l'obiettivo di esplorare l'utilizzo dell'annotazione semantica di testi brevi nella ricerca di news inserite in canali RSS. Alla base dell'annotazione c'è la conoscenza messa a disposizione da Wikipedia, sotto forma di pagine dell'enciclopedia e di link tra esse.
Viene qui proposto un nuovo approccio che utilizza l'annotatore TAGME, sviluppato presso il Dipartimento di Informatica della nostra Università, per individuare e annotare concetti rilevanti contenuti in una news (in questo caso nel suo titolo e nella sua descrizione), e una misura di similarita tra il concetto cercato e quelli individuati nelle news in input.
L'ecacia dell'approccio proposto e stata valutata su un corpus appositamente creato e consistente di 4195 news estratte da quattro feed e pubblicate
dal 2 al 14 settembre 2011. I feed sono quelli relativi a due quotidiani (Corriere della Sera e la Repubblica), un'agenzia di stampa (ANSA) e un
sito specialistico (Punto Informatico).
Sono state poi create 30 query costituite ognuna da un concetto e dalla forma testuale comunemente utilizzata per esprimerlo. Ogni news del corpus è stata poi annotata, specificando per quali delle 30 query essa risulta rilevante.
I risultati ottenuti dal nostro approccio sono stati confrontati con quelli ottenuti da altri due algoritmi che rappresentano lo scenario di riferimento per i sistemi moderni di ricerca/alerting sulle/di news. In generale l'approccio basato su tagme ottiene una misura F1 pari a 60,9%, circa 2 punti migliore di quella ottenibile dagli altri due approcci sperimentati.
Viene qui proposto un nuovo approccio che utilizza l'annotatore TAGME, sviluppato presso il Dipartimento di Informatica della nostra Università, per individuare e annotare concetti rilevanti contenuti in una news (in questo caso nel suo titolo e nella sua descrizione), e una misura di similarita tra il concetto cercato e quelli individuati nelle news in input.
L'ecacia dell'approccio proposto e stata valutata su un corpus appositamente creato e consistente di 4195 news estratte da quattro feed e pubblicate
dal 2 al 14 settembre 2011. I feed sono quelli relativi a due quotidiani (Corriere della Sera e la Repubblica), un'agenzia di stampa (ANSA) e un
sito specialistico (Punto Informatico).
Sono state poi create 30 query costituite ognuna da un concetto e dalla forma testuale comunemente utilizzata per esprimerlo. Ogni news del corpus è stata poi annotata, specificando per quali delle 30 query essa risulta rilevante.
I risultati ottenuti dal nostro approccio sono stati confrontati con quelli ottenuti da altri due algoritmi che rappresentano lo scenario di riferimento per i sistemi moderni di ricerca/alerting sulle/di news. In generale l'approccio basato su tagme ottiene una misura F1 pari a 60,9%, circa 2 punti migliore di quella ottenibile dagli altri due approcci sperimentati.
File
Nome file | Dimensione |
---|---|
La tesi non è consultabile. |