Tesi etd-03072026-113911 |
Link copiato negli appunti
Tipo di tesi
Tesi di dottorato di ricerca
Autore
CARLI, FRANCESCO
URN
etd-03072026-113911
Titolo
Modeling drug-biosystems interactions at multiple scales through AI methods
Settore scientifico disciplinare
INF/01 - INFORMATICA
Corso di studi
DOTTORATO NAZIONALE IN INTELLIGENZA ARTIFICIALE
Relatori
supervisore Prof. Raimondi, Francesco
co-supervisore Lio, Pietro
co-supervisore Lio, Pietro
Parole chiave
- AI
- cancer
- drug repurposing
- LLMs
- ML
Data inizio appello
31/03/2026
Consultabilità
Completa
Riassunto (Inglese)
Modern drug discovery and precision medicine face the persistent challenge of integrating information across scales, from biochemical drug–protein interactions to cellular responses and ultimately patient outcomes. Bridging these levels of biological organization remains a major barrier to translating preclinical findings into therapies. Artificial intelligence (AI) offers powerful tools to model drug–biosystem interactions, but their impact depends on methods that are accurate, interpretable, generalizable, and accessible. This thesis addresses these needs by developing computational frameworks spanning biochemical, cellular, and patient scales. At the biochemical scale, we developed BindSight, a modular framework for drug–target interaction prediction unifying data curation, representation learning, model evaluation, and deployment. It incorporates scaffold-aware splitting, protein promiscuity stratification, and a two-phase prediction scheme: rapid library-wide screening followed by TabPFN re-scoring to balance efficiency with generalization. Central to BindSight is a CLIP-style architecture embedding proteins and compounds in a shared latent space, supporting heterogeneous molecular and protein representations, and accommodating advanced loss functions with distributed training. At the cellular scale, we introduced CellHit, an interpretable framework that predicts drug responses from transcriptomic profiles of cancer cell lines and extends them to patient tumors. By training on large pharmacogenomic resources (GDSC, PRISM) and aligning them with patient bulk RNA-seq through Celligner, the framework uncovered transcriptional programs underpinning drug sensitivity and recovered known drug–target relationships. Incorporating LLM-curated mechanism-of-action pathways enhanced predictive power. To promote accessibility, CellHit has been released as open-source software and deployed as a publicly available web server. At the patient scale, we applied our models to over 10,000 patient transcriptomes from The Cancer Genome Atlas (TCGA), successfully recovering a majority of approved drug-indication pairs and providing strong in silico validation. Importantly, we bridged the gap from computational hypotheses to experimental confirmation through prospective wet-lab experiments, which validated the novel vulnerabilities predicted by our models in pancreatic and glioblastoma cell lines. In sum, this thesis demonstrates how AI can model drug–biosystem interactions across biochemical, cellular, and patient scales. By combining predictive performance with interpretability, biological grounding, and accessibility, it offers methodological advances, experimentally supported insights, and open resources to accelerate drug discovery and translational medicine. While BindSight is a domain-agnostic tool for drug–target interaction prediction, the subsequent cellular and patient scale work focuses specifically on oncology applications.
Riassunto (Italiano)
La moderna scoperta di farmaci e la medicina di precisione affrontano la sfida costante di integrare informazioni su diverse scale, dalle interazioni biochimiche farmaco–proteina alle risposte cellulari, fino alle applicazioni cliniche. Collegare differenti livelli di risoluzione biologica rimane uno dei principali ostacoli alla traslazione delle scoperte dal campo preclinico a quello terapeutico. L'intelligenza artificiale (IA) offre potenti strumenti per modellare le interazioni tra farmaci e biosistemi, ma il loro impatto dipende da metodi che siano accurati, interpretabili, generalizzabili e accessibili. Questa tesi risponde a tali esigenze sviluppando framework computazionali che abbracciano le scale biochimica, cellulare e clinica. Su scala biochimica, abbiamo sviluppato BindSight, un framework modulare per la previsione dell'interazione farmaco–bersaglio che unifica la gestione dei dati, l'apprendimento delle rappresentazioni (representation learning), la valutazione del modello e l'implementazione. Esso incorpora una suddivisione basata sullo scaffold (scaffold-aware splitting), la stratificazione della promiscuità proteica e uno schema predittivo a due fasi: uno screening rapido sull'intera libreria seguito da un ricalcolo dei punteggi (re-scoring) tramite TabPFN per bilanciare l'efficienza con la generalizzazione. Al centro di BindSight vi è un'architettura in stile CLIP che mappa proteine e composti in uno spazio latente condiviso, supportando rappresentazioni molecolari e proteiche eterogenee, loss function avanzate e addestramento distribuito. Su scala cellulare, abbiamo introdotto CellHit, un framework interpretabile che prevede le risposte ai farmaci a partire dai profili trascrittomici di linee cellulari tumorali e le estende ai tumori dei pazienti. Addestrandosi su vaste risorse farmacogenomiche (GDSC, PRISM) e allineandole ai dati RNA-seq bulk dei pazienti tramite Celligner, il framework ha identificato programmi trascrizionali alla base della sensibilità ai farmaci e recuperato relazioni farmaco–bersaglio già note. L'integrazione di pathway dei meccanismi d'azione curati tramite LLM ha potenziato la capacità predittiva. Per promuoverne l'accessibilità, CellHit è stato rilasciato come software open-source e reso disponibile come server web pubblico. Su scala clinica, abbiamo applicato i nostri modelli a oltre 10.000 trascrittomi di pazienti provenienti da The Cancer Genome Atlas (TCGA), recuperando con successo la maggior parte delle coppie farmaco–indicazione approvate e fornendo una solida validazione in silico. In modo cruciale, abbiamo colmato il divario tra ipotesi computazionali e conferma sperimentale: esperimenti prospettici condotti in laboratorio hanno validato le vulnerabilità predette dai nostri modelli in linee cellulari di cancro pancreatico e glioblastoma. In sintesi, questa tesi mostra come l'IA possa modellare le interazioni farmaco–biosistema a livello biochimico, cellulare e clinico. L'integrazione tra capacità predittiva, interpretabilità, fondamento biologico e accessibilità si traduce in avanzamenti metodologici, risultati sperimentalmente validati e risorse aperte a supporto della scoperta di farmaci e della medicina traslazionale. BindSight è uno strumento applicabile a qualsiasi contesto terapeutico per la predizione delle interazioni farmaco–bersaglio, mentre i contributi a scala cellulare e clinica si concentrano specificamente sull'oncologia.
File
| Nome file | Dimensione |
|---|---|
| finale_c..._pdfa.pdf | 27.72 Mb |
Contatta l’autore |
|