logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-05052023-152311


Thesis type
Tesi di laurea magistrale
Author
ISOLA, ALICE
URN
etd-05052023-152311
Thesis title
Realizzazione e valutazione di un sistema di ricerca sul Codice civile utilizzando strumenti open-source
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Prof. Tavosanis, Mirko
correlatore Fortunati, Alessandro
Keywords
  • Codice Civile
  • Giurisprudenza
  • Linguistica italiana
  • NLP
  • open-source
  • QA
  • Question Answering
Graduation session start date
25/05/2023
Availability
None
Summary
Nell'ultimo decennio, la nascita e lo sviluppo di modelli e tecnologie nell'ambito del Natural Language Processing (NLP) hanno contribuito alla creazione di sistemi e metodologie capaci di recuperare informazioni da documenti testuali di vario genere così da riuscire a soddisfare il più possibile il bisogno informativo di chi ne usufruisce, ottenendo risultati sempre più accurati. Tuttavia, è stata poco esplorata la possibilità di ottenere risultati altrettanto buoni su una particolare varietà linguistica settoriale come il linguaggio giuridico italiano.
Da qui nasce il progetto descritto in questo elaborato, il quale cercherà di rispondere a questa esigenza tramite la creazione e la valutazione di un sistema di ricerca e di Question Answering (QA) basato su uno dei più importanti testi normativi italiani ovvero il Codice civile.
Per la realizzazione di questo sistema si utilizzeranno strumenti e software open-source applicando e confrontando i più recenti Large Language Model (LLM), in particolare quelli basati sui Trasformatori.
In particolare, verranno realizzate due diverse tecniche di ricerca: la ricerca semantica e il QA in chiave sia generativa che estrattiva, ottenendo risultati a partire da un corpus di domande di test.
I suddetti risultati saranno, poi, valutati sia in chiave quantitativa stimando la percentuale di risultati errati e corretti, che qualitativa, valutandone la correttezza linguistica e quindi la capacità dei modelli di lavorare su una particolare varietà linguistica.
Buona parte dei risultati ottenuti mostrano una buona coerenza con la domanda di ricerca posta. Tra le tecniche di ricerca implementate, quelle che riescono ad ottenere i risultati migliori sono la ricerca semantica e il QA di natura estrattiva. Queste due tecniche e i corrispettivi modelli riescono, infatti, ad estrarre correttamente gli articoli contenti la risposta alla domanda e a restituirla come primo risultato della ricerca.
Tuttavia, in alcuni casi i risultati, soprattutto quelli ottenuti a partire dal QA generativo comportano alcuni errori soprattutto dal punto di vista semantico.
Un possibile sviluppo futuro potrebbe essere l'applicazione delle tecnologie illustrate in questo studio anche su altri testi giuridici contenti atti di natura sia normativa che applicativa. Altri possibili sviluppi potrebbero riguardare anche testi di altra natura come quelli burocratici, così da aumentare la generalità dello strumento ed evidenziare eventuali analogie e differenze.
File