logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-06052026-114426


Tipo di tesi
Tesi di dottorato di ricerca
URN
etd-06052026-114426
Titolo
Towards Integrated Trustworthy AI in Medical Imaging: Applications Across Modalities and Clinical Domains
Settore scientifico disciplinare
ING-INF/06 - BIOINGEGNERIA ELETTRONICA E INFORMATICA
Corso di studi
INGEGNERIA DELL'INFORMAZIONE
Parole chiave
  • Artificial Intelligence
  • Clinical
  • Integration
  • Medical Imaging
  • Trustworthiness
Data inizio appello
09/06/2026
Consultabilità
Non consultabile
Data di rilascio
09/06/2029
Riassunto (Inglese)
Artificial Intelligence performance in Medical Imaging has reached a level that could only be expected of human experts just a few years ago. Despite this remarkable achievement, the clinical adoption of these powerful systems remains limited. Deficiencies in reliability, transparency and robustness hinder successful clinical deployment: models that perform well in controlled settings frequently produce overconfident, opaque and brittle predictions once introduced in the clinical practice. Research on these aspects is frequently conducted in an isolated fashion, seldom covering only specific components. This fragmented effort limits the effectiveness of the proposed solutions in addressing the trustworthiness gap in Medical Imaging AI. This dissertation follows a framework made up of five interdependent pillars, namely uncertainty quantification, robustness to domain shift, explainability and interpretability, data authenticity and representativeness, and clinical validation, integrating and operationalizing them across diverse imaging modalities and clinical domains. This contribution is presented in four studies, each guided by a specific clinical need and integrating multiple pillars together. Bayesian and approximate Bayesian deep learning classification was first applied to cardiac amyloidosis classification from PET data in a data scarcity setting, where uncertainty quantification and manifold learning were integrated to jointly assess predictive confidence and representation quality, as well as their accordance on the model’s internals. In resting-state fMRI for the classification of autism spectrum disorder, the probabilistic framework was extended to combine Bayesian inference with attribution-based explainability, allowing for the evaluation of attribution stability and the construction of global representations of model reasoning. The focus then moved from global classification to segmentation of the choroid plexus in the brain, with the development of an uncertainty aware voxel-wise prediction pipeline for multi-site structural MRI, designed to investigate how epistemic and aleatoric signals of uncertainty behave across sites and populations. Finally, we moved from discriminative inference to data generation, developing a 3D conditional generative model for longitudinal FDG-PET in Alzheimer’s disease and validating it via clinically grounded metabolic analysis.Results across studies sublimate into a series of valuable integrative findings. To start, there’s evidence that approximate Bayesian inference can provide a scalable path to confidence estimation, preserving core benefits of probabilistic reasoning under the typical computational constraints of the real-world clinical practice. These confidence signals also enable a synergy with explainability and representation diagnostics, as Bayesian sampling allows for the study of explanation stability, while attribution methods and manifold learning provide a spatial component to otherwise abstract uncertainty measures. This created a stratified approach that provides valuable information that would remain hidden in a deterministic pipeline. The synergy with probabilistic approaches also extends to the problem of domain shift, where epistemic and aleatoric uncertainty proxies are shown to reliably track distribution mismatch in an unsupervised fashion, qualifying uncertainty as an active mechanism for pre-deployment validation and post-deployment monitoring of AI systems’ robustness. Finally, on the data side the same integrative logic applies: a clinically grounded validation of generative models ensures the reproduction of disease-specific valuable signatures in synthetic data, strengthening trust in generative modeling for data representativeness and authenticity. Across these findings, this dissertation argues that trustworthiness is a systemic quality, that arises and is empowered by the integration and interaction of complementary mechanisms and techniques, embedded throughout the entire imaging pipeline, starting from data acquisition and generation, all the way down to post-deployment monitoring.
Riassunto (Italiano)
Le prestazioni dell'intelligenza artificiale nell'imaging medico hanno raggiunto un livello che, solo pochi anni fa, ci si sarebbe potuti aspettare unicamente da esperti umani. Nonostante questo notevole risultato, l'adozione clinica di questi potenti sistemi rimane limitata. Carenze in termini di attendibilità, trasparenza e robustezza ostacolano un'efficace implementazione clinica: modelli che si comportano bene in contesti controllati producono di frequente predizioni eccessivamente confidenti, opache e fragili una volta introdotti nella pratica clinica. La ricerca su questi aspetti viene spesso condotta in maniera isolata, affrontando raramente più di alcune componenti specifiche. Questo sforzo frammentato limita l'efficacia delle soluzioni proposte nel colmare il divario di affidabilità (trustworthiness gap) nell'IA per l'imaging medico. La presente dissertazione segue un framework costituito da cinque pilastri interdipendenti, ovvero la quantificazione dell'incertezza, la robustezza al domain shift, la spiegabilità e l'interpretabilità, l'autenticità e la rappresentatività dei dati e la validazione clinica, integrandoli e rendendoli operativi attraverso diverse modalità di imaging e domini clinici. Tale contributo è presentato in quattro studi, ciascuno guidato da una specifica esigenza clinica e basato sull'integrazione di più pilastri tra loro. In primo luogo, la classificazione tramite deep learning bayesiano e bayesiano approssimato è stata applicata alla classificazione dell'amiloidosi cardiaca a partire da dati PET in un contesto di scarsità di dati, dove la quantificazione dell'incertezza e il manifold learning sono stati integrati per valutare congiuntamente la confidenza predittiva e la qualità della rappresentazione, nonché la loro coerenza a livello dei meccanismi interni del modello. Nell'fMRI a riposo per la classificazione del disturbo dello spettro autistico, il framework probabilistico è stato esteso per combinare l'inferenza bayesiana con la spiegabilità basata su attribuzioni, consentendo la valutazione della stabilità delle attribuzioni e la costruzione di rappresentazioni globali del ragionamento del modello. L'attenzione si è poi spostata dalla classificazione globale alla segmentazione del plesso corioideo nel cervello, con lo sviluppo di una pipeline di predizione voxel-wise consapevole dell'incertezza per MRI strutturale multi-sito, progettata per indagare come i segnali di incertezza epistemica e aleatoria si comportino tra siti e popolazioni differenti. Infine, siamo passati dall'inferenza discriminativa alla generazione di dati, sviluppando un modello generativo condizionale 3D per FDG-PET longitudinale nella malattia di Alzheimer e validandolo tramite un'analisi metabolica clinicamente fondata. I risultati dei diversi studi si sublimano in una serie di preziose conclusioni integrative. Innanzitutto, vi sono evidenze che l'inferenza bayesiana approssimata possa offrire una via scalabile alla stima della confidenza, preservando i benefici fondamentali del ragionamento probabilistico a fronte dei tipici vincoli computazionali della pratica clinica reale. Questi segnali di confidenza abilitano inoltre una sinergia con la spiegabilità e la diagnostica delle rappresentazioni, poiché il campionamento bayesiano consente lo studio della stabilità delle spiegazioni, mentre i metodi di attribuzione e il manifold learning forniscono una componente spaziale a misure di incertezza altrimenti astratte. Ciò ha dato origine a un approccio stratificato in grado di fornire informazioni preziose, che rimarrebbero nascoste in una pipeline deterministica. La sinergia con gli approcci probabilistici si estende anche al problema del domain shift, dove i proxy di incertezza epistemica e aleatoria si dimostrano in grado di tracciare in modo affidabile il disallineamento della distribuzione (distribution mismatch) in maniera non supervisionata, qualificando l'incertezza come meccanismo attivo per la validazione pre-deployment e il monitoraggio post-deployment della robustezza dei sistemi di IA. Infine, sul versante dei dati si applica la stessa logica integrativa: una validazione clinicamente fondata dei modelli generativi garantisce la riproduzione di preziose firme specifiche della malattia nei dati sintetici, rafforzando la fiducia nella modellazione generativa per la rappresentatività e l'autenticità dei dati. Attraverso questi risultati, la presente dissertazione sostiene che l'affidabilità (trustworthiness) è una qualità sistemica, che emerge ed è potenziata dall'integrazione e dall'interazione di meccanismi e tecniche complementari, incorporati lungo l'intera pipeline di imaging, a partire dall'acquisizione e dalla generazione dei dati, fino al monitoraggio post-deployment.
File