Tesi etd-01112024-095844

Tipo di tesi

Tesi di laurea magistrale

Autore

CECCHETTI, JACOPO

URN

etd-01112024-095844

Titolo

Learning to Rank for non Independent and Identically Distributed Datasets

Dipartimento

INGEGNERIA DELL'INFORMAZIONE

Corso di studi

ARTIFICIAL INTELLIGENCE AND DATA ENGINEERING

Relatori

relatore Prof. Tonellotto, Nicola
relatore Perego, Raffaele

Parole chiave

GBDT
Information Retrieval
Learning to Rank
non-IID
Non-Independently and Identically Distributed
Ranking

Data inizio appello

13/02/2024

Consultabilità

Non consultabile

Data di rilascio

13/02/2094

Riassunto

Questa tesi affronta il problema del ranking utilizzando Learning to Rank (LTR) in uno scenario distribuito in cui i dati non sono IID (indipendenti e identicamente distribuiti). Consideriamo due set di dati distinti, ciascuno utilizzato per addestrare modelli LTR basati su foreste di alberi di decisione per ordinare documenti a partire da query degli utenti. I modelli allenati in questo modo possono avere accesso solamente ai propri dati. L'obiettivo è creare un modello finale in grado di rispondere a query provenienti da entrambe le distribuzioni di dati. Per raggiungere questo obiettivo, la nostra ricerca esplora varie metodologie per combinare foreste di alberi di decisione, come la combinazione lineare e il model stacking. Questa ricerca contribuisce allo sviluppo di modelli LTR robusti nel contesto di dati non-IID, offrendo potenziali applicazioni in vari settori in cui la privacy dei dati e l'eterogeneità della distribuzione sono preoccupazioni rilevanti.

This thesis addresses the challenge of ranking with Learning to Rank (LTR) in a non-IID (Non-Independently and Identically Distributed) distributed data scenario. We consider two distinct datasets, each used to train a separate decision tree forest LTR model with the objective of ranking documents based on user-issued queries. Both models operate independently without access to each other's data. Our objective is to create a final model capable of handling queries from both data distributions. To achieve this goal, our research explores various methodologies for merging decision tree forests, such as linear combination and model stacking. This research contributes to the development of robust LTR models in the context of non-IID data, offering potential applications in various domains where data privacy and distribution heterogeneity are prominent concerns.

File

Nome file	Dimensione
Tesi non consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01112024-095844