logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-09112025-142931


Tipo di tesi
Tesi di laurea magistrale
Autore
SETTIMELLI, NICCOLÒ
Indirizzo email
n.settimelli@studenti.unipi.it, niccolosettimelli@gmail.com
URN
etd-09112025-142931
Titolo
Learning What to Crawl: Metadata-Enriched LLMs for Crawling Frontier Prioritisation
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Relatori
relatore Tonellotto, Nicola
relatore Pezzuti, Francesca
Parole chiave
  • Frontier Prioritization
  • Information Retrieva
  • Metadata
  • Metadati
  • Prioritizzazione della Frontiera
  • Recupero dell’Informazionel
  • Semantic Quality
  • Transformers
  • Web Crawling
Data inizio appello
02/10/2025
Consultabilità
Completa
Riassunto
Il presente lavoro di tesi affronta il problema della prioritizzazione della frontiera di crawling, proponendo un approccio innovativo basato su modelli di linguaggio e metodi di apprendimento automatico. I crawler tradizionali si basano principalmente su metriche di popolarità o sulla struttura del grafo del Web, risultando spesso costosi e poco adatti a decisioni in tempo reale. L’obiettivo di questa ricerca è quello di stimare la capacità di una pagina web di condurre verso contenuti semanticamente rilevanti attraverso i propri outlink, utilizzando sia le informazioni testuali che metadati strutturati. A tale scopo, vengono sviluppati dataset su larga scala a partire da ClueWeb22-B e MS MARCO Web Search, e vengono addestrati modelli transformer, arricchiti con meccanismi di fusione multimodale per integrare testo e metadati. L’integrazione di tali modelli in un simulatore di crawler consente di valutare se l’adozione di segnali semantici migliora l’efficienza del processo di esplorazione, aprendo nuove prospettive per l’allineamento del crawling con la ricerca semantica di nuova generazione.
This thesis addresses the problem of crawling frontier prioritization, proposing an innovative approach based on language models and machine learning techniques. Traditional crawlers rely mainly on popularity metrics or the structure of the web graph, which are often computationally expensive and unsuitable for real-time decision-making. The goal of this research is to estimate the ability of a web page to lead to semantically relevant content through its outlinks, leveraging both textual information and structured metadata. To this end, large-scale datasets were built from ClueWeb22-B and MS MARCO Web Search, and transformer-based models were fine-tuned, enriched with multimodal fusion mechanisms to integrate text and metadata. The integration of these models into a crawling simulator allows us to evaluate whether semantic signals improve the efficiency of web exploration, opening new perspectives for aligning crawling with next-generation semantic search.
File