logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01202026-112939


Tipo di tesi
Tesi di laurea magistrale
URN
etd-01202026-112939
Titolo
Sviluppo di un modello basato su Neural Language Models per l’estrazione automatica di informazione da documenti giuridici delle aziende sanitarie locali
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Parole chiave
  • documenti giuridici delle aziende sanitarie locali
  • estrazione automatica di informazione
  • information extraction
  • legal documents of local health authorities
  • neural language models
Data inizio appello
06/02/2026
Consultabilità
Completa
Riassunto (Inglese)
Riassunto (Italiano)
La tesi presenta un modello di Named Entity Recognition per l’estrazione automatica di entità giuridico–amministrative da atti delle Aziende Sanitarie Locali, basato su encoder Transformer (BERT e RoBERTa). È stato costruito un corpus annotato ad hoc a partire da delibere e determine, attraverso estrazione automatica con modelli generativi, revisione esperta e definizione di sette categorie di entità specifiche di dominio. Il lavoro copre l’intera pipeline: normalizzazione dei testi, progettazione dello schema BIO, fine–tuning dei modelli, valutazione con cross–validation e analisi degli errori. Gli esperimenti su diverse configurazioni di epoche, fold e architetture mostrano che un modello BERT compatto può raggiungere buone prestazioni con costi computazionali contenuti, risultando praticabile in contesti istituzionali reali.

This thesis presents a Named Entity Recognition model for the automatic extraction of legal-administrative entities from Local Health Authority documents, based on Transformer encoders (BERT and RoBERTa). A custom-annotated corpus was built from resolutions and decisions, through automatic extraction with generative models, expert review, and the definition of seven domain-specific entity categories. The work covers the entire pipeline: text normalization, BIO schema design, model fine-tuning, evaluation with cross-validation, and error analysis. Experiments on different configurations of epochs, folds, and architectures show that a compact BERT model can achieve good performance with low computational costs, proving to be viable in real-world institutional contexts.
File