logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-05052023-152311


Tipo di tesi
Tesi di laurea magistrale
Autore
ISOLA, ALICE
URN
etd-05052023-152311
Titolo
Realizzazione e valutazione di un sistema di ricerca sul Codice civile utilizzando strumenti open-source
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Tavosanis, Mirko
correlatore Fortunati, Alessandro
Parole chiave
  • open-source
  • Linguistica italiana
  • Giurisprudenza
  • Codice Civile
  • NLP
  • QA
  • Question Answering
Data inizio appello
25/05/2023
Consultabilità
Tesi non consultabile
Riassunto
Nell'ultimo decennio, la nascita e lo sviluppo di modelli e tecnologie nell'ambito del Natural Language Processing (NLP) hanno contribuito alla creazione di sistemi e metodologie capaci di recuperare informazioni da documenti testuali di vario genere così da riuscire a soddisfare il più possibile il bisogno informativo di chi ne usufruisce, ottenendo risultati sempre più accurati. Tuttavia, è stata poco esplorata la possibilità di ottenere risultati altrettanto buoni su una particolare varietà linguistica settoriale come il linguaggio giuridico italiano.
Da qui nasce il progetto descritto in questo elaborato, il quale cercherà di rispondere a questa esigenza tramite la creazione e la valutazione di un sistema di ricerca e di Question Answering (QA) basato su uno dei più importanti testi normativi italiani ovvero il Codice civile.
Per la realizzazione di questo sistema si utilizzeranno strumenti e software open-source applicando e confrontando i più recenti Large Language Model (LLM), in particolare quelli basati sui Trasformatori.
In particolare, verranno realizzate due diverse tecniche di ricerca: la ricerca semantica e il QA in chiave sia generativa che estrattiva, ottenendo risultati a partire da un corpus di domande di test.
I suddetti risultati saranno, poi, valutati sia in chiave quantitativa stimando la percentuale di risultati errati e corretti, che qualitativa, valutandone la correttezza linguistica e quindi la capacità dei modelli di lavorare su una particolare varietà linguistica.
Buona parte dei risultati ottenuti mostrano una buona coerenza con la domanda di ricerca posta. Tra le tecniche di ricerca implementate, quelle che riescono ad ottenere i risultati migliori sono la ricerca semantica e il QA di natura estrattiva. Queste due tecniche e i corrispettivi modelli riescono, infatti, ad estrarre correttamente gli articoli contenti la risposta alla domanda e a restituirla come primo risultato della ricerca.
Tuttavia, in alcuni casi i risultati, soprattutto quelli ottenuti a partire dal QA generativo comportano alcuni errori soprattutto dal punto di vista semantico.
Un possibile sviluppo futuro potrebbe essere l'applicazione delle tecnologie illustrate in questo studio anche su altri testi giuridici contenti atti di natura sia normativa che applicativa. Altri possibili sviluppi potrebbero riguardare anche testi di altra natura come quelli burocratici, così da aumentare la generalità dello strumento ed evidenziare eventuali analogie e differenze.
File