logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01112024-095844


Tipo di tesi
Tesi di laurea magistrale
Autore
CECCHETTI, JACOPO
URN
etd-01112024-095844
Titolo
Learning to Rank for non Independent and Identically Distributed Datasets
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING
Relatori
relatore Prof. Tonellotto, Nicola
relatore Perego, Raffaele
Parole chiave
  • Learning to Rank
  • Information Retrieval
  • GBDT
  • Ranking
  • Non-Independently and Identically Distributed
  • non-IID
Data inizio appello
13/02/2024
Consultabilità
Non consultabile
Data di rilascio
13/02/2094
Riassunto
Questa tesi affronta il problema del ranking utilizzando Learning to Rank (LTR) in uno scenario distribuito in cui i dati non sono IID (indipendenti e identicamente distribuiti). Consideriamo due set di dati distinti, ciascuno utilizzato per addestrare modelli LTR basati su foreste di alberi di decisione per ordinare documenti a partire da query degli utenti. I modelli allenati in questo modo possono avere accesso solamente ai propri dati. L'obiettivo è creare un modello finale in grado di rispondere a query provenienti da entrambe le distribuzioni di dati. Per raggiungere questo obiettivo, la nostra ricerca esplora varie metodologie per combinare foreste di alberi di decisione, come la combinazione lineare e il model stacking. Questa ricerca contribuisce allo sviluppo di modelli LTR robusti nel contesto di dati non-IID, offrendo potenziali applicazioni in vari settori in cui la privacy dei dati e l'eterogeneità della distribuzione sono preoccupazioni rilevanti.

This thesis addresses the challenge of ranking with Learning to Rank (LTR) in a non-IID (Non-Independently and Identically Distributed) distributed data scenario. We consider two distinct datasets, each used to train a separate decision tree forest LTR model with the objective of ranking documents based on user-issued queries. Both models operate independently without access to each other's data. Our objective is to create a final model capable of handling queries from both data distributions. To achieve this goal, our research explores various methodologies for merging decision tree forests, such as linear combination and model stacking. This research contributes to the development of robust LTR models in the context of non-IID data, offering potential applications in various domains where data privacy and distribution heterogeneity are prominent concerns.
File