ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-05182009-114723


Tipo di tesi
Tesi di laurea specialistica
Autore
SCAIELLA, UGO
URN
etd-05182009-114723
Titolo
Nuovi algoritmi per l'etichettatura dei risultati di un motore di ricerca
Dipartimento
SCIENZE MATEMATICHE, FISICHE E NATURALI
Corso di studi
TECNOLOGIE INFORMATICHE
Relatori
Relatore Prof. Ferragina, Paolo
Parole chiave
  • etichette
  • snippet
  • motore di ricerca
  • query refinement
  • snaket
  • knowledge discovery
  • wikipedia
Data inizio appello
05/06/2009
Consultabilità
Completa
Riassunto
La quantità di informazioni di cui si può disporre oggi tramite il web ha raggiunto dimensioni non gestibili efficacemente dai comuni motori di ricerca quali Google, Yahoo o Msn Live. Esponendo infatti i risultati in un'unica lista piatta questi rischiano spesso di non riuscire a venire incontro alle esigenze dei loro utenti. In questo scenario diventa per l'utente un valido supporto la possibilità di avere un elenco (o anche meglio una gerarchia) dei temi principali trattati
dai documenti restituiti a seguito di una sua interrogazione.
In questa tesi abbiamo affrontato il problema partendo dagli ottimi risultati ottenuti da SnakeT, un sistema sviluppato all'interno del nostro dipartimento. Ci siamo quindi concentrati sulla prima fase del suo processo di elaborazione, l'estrazione di etichette dal testo di cui sono costituiti i risultati della ricerca.
Il problema fondamentale che abbiamo affrontato è stato perciò quello di valutare la bontà delle etichette estratte al fine di selezionare le più significative. Per fare ciò abbiamo investigato sperimentalmente numerosi metodi apparsi recentemente in letteratura e partendo da essi abbiamo proposto nuove tecniche che non solo permettono di etichettare efficacemente i risultati di una ricerca, ma anche di arricchire l'insieme delle etichette basandosi sulla base di conoscenza offerta da Wikipedia.
La tesi si conclude con un confronto fra gli algoritmi proposti e i risultati di SnakeT e altri strumenti forniti da Yahoo, Clusty e Google.
File