logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11292023-165403


Tipo di tesi
Tesi di dottorato di ricerca
Autore
PEDUZZI, GIULIA
URN
etd-11292023-165403
Titolo
Big data analysis to discover genetic and environmental pancreatic cancer risk factors.
Settore scientifico disciplinare
BIO/18
Corso di studi
BIOLOGIA
Relatori
tutor Prof. Campa, Daniele
Parole chiave
  • artificial intelligence
  • gene-environment interaction
  • genetic susceptibility
  • pancreatic cancer
  • risk factors
Data inizio appello
04/12/2023
Consultabilità
Non consultabile
Data di rilascio
04/12/2093
Riassunto
L'adenocarcinoma duttale pancreatico (PDAC) è una malattia complessa che insorge dall'interazione tra la componente genetica e l’esposizione ambientale. Sebbene la conoscenza sui fattori di rischio del PDAC sia limitata, nessuno studio ha esaminato in modo esaustivo l'esposoma (definito come la misura di tutte le esposizioni ai fattori di rischio) in combinazione con la variabilità genetica in relazione alla suscettibilità della malattia. Comprendere l'epidemiologia del PDAC sarebbe fondamentale per identificarne l'eziologia e mettere a punto una strategia di prevenzione.
Questo progetto di dottorato mira ad ampliare le conoscenze sui fattori di rischio genetici e non genetici del PDAC, analizzando la suscettibilità genetica, l’esposoma e l'interazione tra i loci di suscettibilità noti e i fattori ambientali. Per raggiungere gli obiettivi di questo progetto, è stato adottato un approccio multidisciplinare che integra analisi secondarie, metodologie epidemiologiche classiche e approcci di intelligenza artificiale (IA). Le analisi secondarie si basano su ipotesi biologiche postulate a priori. Questo progetto ne indaga due: l'impatto dell'attività ormonale femminile e l'autofagia come potenziali fattori di rischio per il PDAC. I metodi epidemiologici classici (come l'analisi di associazione, il punteggio di rischio poligenico (PRS) e l'interazione gene-ambiente (G×E)), insieme a modelli di IA spiegabili, sono stati utilizzati per identificare nuovi fattori di rischio ambientali per il PDAC, per scoprire l'interazione tra la componente genetica e ambientale e per costruire un modello predittivo del rischio di PDAC. Tutti questi approcci sono stati applicati nel contesto di una delle più grandi coorti prospettiche disponibili ad oggi, UK Biobank.
Le analisi secondarie hanno confermato associazioni già note, come quella con il gene NR5A2 (p=4.08×10-5) considerando solo le donne con PDAC, ma anche quella con i geni TP53 (p=2.50×10-4) e TP63 (p=8.43×10-9) e il rischio di PDAC. Per quanto riguarda la suscettibilità ambientale, è stato osservato un totale di 147 associazioni a p<0.05 e 54 sotto la soglia di significatività ottenuta con la correzione di Bonferroni di p<1.37×10-4. I nostri risultati sottolineano l'importanza dello stress e dei comportamenti sedentari nella suscettibilità del PDAC, suggerendo che cambiamenti nello stile di vita potrebbero essere utili per ridurre il rischio della malattia. Infine, abbiamo integrato la componente genetica con quella ambientale per sviluppare un modello predittivo per il PDAC che ha ottenuto delle buone performance (accuratezza complessiva di CatBoost=85,24% e recall sui casi=77,10%).
Il nostro studio ha confermato alcuni fattori genetici e scoperto nuovi fattori ambientali associati al rischio di sviluppare PDAC, fondamentali per sviluppare un futuro screening sui soggetti ad alto rischio. Inoltre, abbiamo calcolato un modello predittivo per la valutazione del rischio di PDAC, che potrebbe essere utilizzato come strumento di screening su una popolazione più ampia.
File