logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-01202026-112939


Tipo di tesi
Tesi di laurea magistrale
Autore
LONGOBARDI, FRANCESCO
URN
etd-01202026-112939
Titolo
Sviluppo di un modello basato su Neural Language Models per l’estrazione automatica di informazione da documenti giuridici delle aziende sanitarie locali
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Dell'Orletta, Felice
Parole chiave
  • documenti giuridici delle aziende sanitarie locali
  • estrazione automatica di informazione
  • information extraction
  • legal documents of local health authorities
  • neural language models
Data inizio appello
06/02/2026
Consultabilità
Completa
Riassunto
La tesi presenta un modello di Named Entity Recognition per l’estrazione automatica di entità giuridico–amministrative da atti delle Aziende Sanitarie Locali, basato su encoder Transformer (BERT e RoBERTa). È stato costruito un corpus annotato ad hoc a partire da delibere e determine, attraverso estrazione automatica con modelli generativi, revisione esperta e definizione di sette categorie di entità specifiche di dominio. Il lavoro copre l’intera pipeline: normalizzazione dei testi, progettazione dello schema BIO, fine–tuning dei modelli, valutazione con cross–validation e analisi degli errori. Gli esperimenti su diverse configurazioni di epoche, fold e architetture mostrano che un modello BERT compatto può raggiungere buone prestazioni con costi computazionali contenuti, risultando praticabile in contesti istituzionali reali.

This thesis presents a Named Entity Recognition model for the automatic extraction of legal-administrative entities from Local Health Authority documents, based on Transformer encoders (BERT and RoBERTa). A custom-annotated corpus was built from resolutions and decisions, through automatic extraction with generative models, expert review, and the definition of seven domain-specific entity categories. The work covers the entire pipeline: text normalization, BIO schema design, model fine-tuning, evaluation with cross-validation, and error analysis. Experiments on different configurations of epochs, folds, and architectures show that a compact BERT model can achieve good performance with low computational costs, proving to be viable in real-world institutional contexts.
File