logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01282026-122706


Tipo di tesi
Tesi di laurea magistrale
Autore
MONTEBOVI, MICHELE
URN
etd-01282026-122706
Titolo
Domain-Adaptive Neural Retrieval for Italian Legal Documents: A Testbed Using AGCM Data
Dipartimento
INFORMATICA
Corso di studi
INFORMATICA
Relatori
relatore Comandè, Giovanni
relatore Licari, Daniele
correlatore Ruggieri, Salvatore
Parole chiave
  • Agcm
  • Embedding
  • Legal
  • Nlp
  • Rag
  • Retrieval
Data inizio appello
27/02/2026
Consultabilità
Tesi non consultabile
Riassunto (Inglese)
Riassunto (Italiano)
La tesi sviluppa un sistema di retrieval neurale specializzato per documenti dell'AGCM (Autorità Garante della Concorrenza e del Mercato italiana). L'obiettivo principale è creare un sistema in grado di recuperare precedenti legali e casi simili basandosi sulla similarità semantica, non solo su corrispondenze lessicali.
Il lavoro si articola su tre assi: (1) progettazione di un tokenizer BPE specifico per testi legali italiani, (2) pre-training di un modello ModernBERT su circa 20 miliardi di token di testi giuridici e amministrativi italiani, (3) fine-tuning di embedding models per il retrieval usando contrastive learning.
Il sistema finale implementa un'architettura ibrida che combina ricerca semantica densa con matching statistico BM25, ottimizzata per il dominio della tutela del consumatore e delle pratiche commerciali scorrette.

The thesis develops a specialized neural retrieval system for documents from the AGCM (Italian Competition and Market Authority). The main objective is to create a system capable of retrieving legal precedents and similar cases based on semantic similarity, not just lexical matches.
The work is divided into three areas: (1) design of a BPE tokenizer specific for Italian legal texts, (2) pre-training of a ModernBERT model on approximately 20 billion tokens of Italian legal and administrative texts, (3) fine-tuning of embedding models for retrieval using contrastive learning.
The final system implements a hybrid architecture that combines dense semantic search with BM25 statistical matching, optimized for the domain of consumer protection and unfair commercial practices.
File