Tesi etd-10032023-073120

Tipo di tesi

Tesi di specializzazione (4 anni)

URN

etd-10032023-073120

Titolo

Large Language Models in medicina del lavoro: analisi della performance di ChatGPT-3.5, ChatGPT-4 e Google Bard nella generazione di risposte a quesiti medici sulla normativa di riferimento (D.lgs. 81/08)

Dipartimento

RICERCA TRASLAZIONALE E DELLE NUOVE TECNOLOGIE IN MEDICINA E CHIRURGIA

Corso di studi

MEDICINA DEL LAVORO

Relatori

relatore Foddis, Rudy

Parole chiave

AI
Artificial Intelligence
ChatGPT
Google Bard
GPT-3.5
GPT-4
intelligenza artificiale
Large Language Models
LLM
medicina del lavoro
occupational medicine

Data inizio appello

08/11/2023

Consultabilità

Non consultabile

Data di rilascio

08/11/2093

Riassunto (Inglese)

Riassunto (Italiano)

I Large Language Models (LLM) sono una delle applicazioni più rivoluzionarie dell’attuale panorama mondiale dell’intelligenza artificiale applicata anche all’ambito medico. Costituiscono dei modelli di linguaggio che utilizzano il deep learning per comprendere e generare il linguaggio umano. Sono progettati per gestire enormi quantità di dati testuali e possono essere utilizzati per una varietà di compiti, come la traduzione automatica, la generazione di testi, la risposta alle domande ecc. Le potenzialità dei principali LLM come ChatGPT e Google Bard non sono mai state esplorate nel contesto nazionale ed internazionale della disciplina della medicina del lavoro. Il primo obiettivo di questo lavoro di tesi è quello di esaminare le performance di ChatGPT-3.5 nella risposta a domande mediche complesse elaborate da medici in modo coerente con il contesto normativo di riferimento (D.lgs. 81/08) per la disciplina della medicina del lavoro italiana. In una fase successiva, il progetto prevede un’analisi comparativa tra le prestazioni di ChatGPT-3.5, ChatGPT-4 e Google Bard, nella generazione di risposte alle stesse domande mediche. L'obiettivo è identificare il modello che offre risposte più accurate e complete. Infine, la ricerca include una survey per raccogliere informazioni sulle principali classi di errori riscontrati nelle risposte generate dagli LLM utilizzati nello studio, al fine di orientare la ricerca futura per migliorare le prestazioni di tali algoritmi e identificare le loro possibili applicazioni nella medicina del lavoro.

Large Language Models (LLMs) are among the most revolutionary applications in the current global landscape of artificial intelligence, including in the field of medicine. They are language models that leverage deep learning to understand and generate human language. Designed to handle vast amounts of textual data, they can be used for various tasks such as automatic translation, text generation, and question answering, among others. The potential of leading LLMs like ChatGPT and Google Bard has not yet been explored in the national and international context of occupational medicine.
The primary objective of this thesis is to assess the performance of ChatGPT-3.5 in responding to complex medical questions formulated by physicians in accordance with the relevant regulatory framework (D.lgs. 81/08) for Italian occupational medicine. In a subsequent phase, the project involves a comparative analysis of the performance of ChatGPT-3.5, ChatGPT-4, and Google Bard in generating answers to the same medical questions. The goal is to identify the model that provides the most accurate and comprehensive answers. Finally, the research includes a survey to gather information about the primary categories of errors encountered in the answers generated by the LLMs used in the study, with the aim of guiding future research to improve the performance of these algorithms and identify their potential applications in occupational medicine.

File

Nome file	Dimensione
Tesi non consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10032023-073120