Tesi etd-01202026-112939

Tipo di tesi

Tesi di laurea magistrale

URN

etd-01202026-112939

Titolo

Sviluppo di un modello basato su Neural Language Models per l’estrazione automatica di informazione da documenti giuridici delle aziende sanitarie locali

Dipartimento

FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di studi

INFORMATICA UMANISTICA

Relatori

.

relatore Prof. Dell'Orletta, Felice

Parole chiave

documenti giuridici delle aziende sanitarie locali
estrazione automatica di informazione
information extraction
legal documents of local health authorities
neural language models

Data inizio appello

06/02/2026

Consultabilità

Completa

Riassunto (Inglese)

Riassunto (Italiano)

La tesi presenta un modello di Named Entity Recognition per l’estrazione automatica di entità giuridico–amministrative da atti delle Aziende Sanitarie Locali, basato su encoder Transformer (BERT e RoBERTa). È stato costruito un corpus annotato ad hoc a partire da delibere e determine, attraverso estrazione automatica con modelli generativi, revisione esperta e definizione di sette categorie di entità specifiche di dominio. Il lavoro copre l’intera pipeline: normalizzazione dei testi, progettazione dello schema BIO, fine–tuning dei modelli, valutazione con cross–validation e analisi degli errori. Gli esperimenti su diverse configurazioni di epoche, fold e architetture mostrano che un modello BERT compatto può raggiungere buone prestazioni con costi computazionali contenuti, risultando praticabile in contesti istituzionali reali.

This thesis presents a Named Entity Recognition model for the automatic extraction of legal-administrative entities from Local Health Authority documents, based on Transformer encoders (BERT and RoBERTa). A custom-annotated corpus was built from resolutions and decisions, through automatic extraction with generative models, expert review, and the definition of seven domain-specific entity categories. The work covers the entire pipeline: text normalization, BIO schema design, model fine-tuning, evaluation with cross-validation, and error analysis. Experiments on different configurations of epochs, folds, and architectures show that a compact BERT model can achieve good performance with low computational costs, proving to be viable in real-world institutional contexts.

File

Nome file	Dimensione
Tesi_mag...bardi.pdf	7.58 Mb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01202026-112939