logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-10032023-073120


Thesis type
Tesi di specializzazione (4 anni)
Author
PADOVAN, MARTINA
URN
etd-10032023-073120
Thesis title
Large Language Models in medicina del lavoro: analisi della performance di ChatGPT-3.5, ChatGPT-4 e Google Bard nella generazione di risposte a quesiti medici sulla normativa di riferimento (D.lgs. 81/08)
Department
RICERCA TRASLAZIONALE E DELLE NUOVE TECNOLOGIE IN MEDICINA E CHIRURGIA
Course of study
MEDICINA DEL LAVORO
Supervisors
relatore Foddis, Rudy
Keywords
  • LLM
  • Large Language Models
  • Google Bard
  • GPT-4
  • ChatGPT
  • GPT-3.5
  • occupational medicine
  • AI
  • Artificial Intelligence
  • medicina del lavoro
  • intelligenza artificiale
Graduation session start date
08/11/2023
Availability
Withheld
Release date
08/11/2093
Summary
I Large Language Models (LLM) sono una delle applicazioni più rivoluzionarie dell’attuale panorama mondiale dell’intelligenza artificiale applicata anche all’ambito medico. Costituiscono dei modelli di linguaggio che utilizzano il deep learning per comprendere e generare il linguaggio umano. Sono progettati per gestire enormi quantità di dati testuali e possono essere utilizzati per una varietà di compiti, come la traduzione automatica, la generazione di testi, la risposta alle domande ecc. Le potenzialità dei principali LLM come ChatGPT e Google Bard non sono mai state esplorate nel contesto nazionale ed internazionale della disciplina della medicina del lavoro. Il primo obiettivo di questo lavoro di tesi è quello di esaminare le performance di ChatGPT-3.5 nella risposta a domande mediche complesse elaborate da medici in modo coerente con il contesto normativo di riferimento (D.lgs. 81/08) per la disciplina della medicina del lavoro italiana. In una fase successiva, il progetto prevede un’analisi comparativa tra le prestazioni di ChatGPT-3.5, ChatGPT-4 e Google Bard, nella generazione di risposte alle stesse domande mediche. L'obiettivo è identificare il modello che offre risposte più accurate e complete. Infine, la ricerca include una survey per raccogliere informazioni sulle principali classi di errori riscontrati nelle risposte generate dagli LLM utilizzati nello studio, al fine di orientare la ricerca futura per migliorare le prestazioni di tali algoritmi e identificare le loro possibili applicazioni nella medicina del lavoro.


Large Language Models (LLMs) are among the most revolutionary applications in the current global landscape of artificial intelligence, including in the field of medicine. They are language models that leverage deep learning to understand and generate human language. Designed to handle vast amounts of textual data, they can be used for various tasks such as automatic translation, text generation, and question answering, among others. The potential of leading LLMs like ChatGPT and Google Bard has not yet been explored in the national and international context of occupational medicine.
The primary objective of this thesis is to assess the performance of ChatGPT-3.5 in responding to complex medical questions formulated by physicians in accordance with the relevant regulatory framework (D.lgs. 81/08) for Italian occupational medicine. In a subsequent phase, the project involves a comparative analysis of the performance of ChatGPT-3.5, ChatGPT-4, and Google Bard in generating answers to the same medical questions. The goal is to identify the model that provides the most accurate and comprehensive answers. Finally, the research includes a survey to gather information about the primary categories of errors encountered in the answers generated by the LLMs used in the study, with the aim of guiding future research to improve the performance of these algorithms and identify their potential applications in occupational medicine.
File