Tesi etd-03092025-171649 |
Link copiato negli appunti
Tipo di tesi
Tesi di dottorato di ricerca
Autore
CARLONI, GIANLUCA
URN
etd-03092025-171649
Titolo
Human-aligned Deep Learning: Explainability, Causality, and Biological Inspiration
Settore scientifico disciplinare
IINF-05/A - Sistemi di elaborazione delle informazioni
Corso di studi
INGEGNERIA DELL'INFORMAZIONE
Relatori
tutor Prof. Cimino, Mario Giovanni Cosimo Antonio
tutor Dott.ssa Colantonio, Sara
tutor Dott.ssa Colantonio, Sara
Parole chiave
- apprendimento automatico
- apprendimento profondo
- artificial intelligence
- backdoor
- bio-inspired
- causal
- causality
- deep learning
- explainability
- feature disentanglement
- immagini mediche
- inference
- intelligenza artificiale
- machine learning
- medical imaging
- neural network
- oncologia
- radiologia
- representation learning
- rete neurale convolutiva
- reti neurali
- xai
Data inizio appello
21/03/2025
Consultabilità
Completa
Riassunto
In questi ultimi anni, l’intelligenza artificiale (IA) è diventata onnipresente nella vita di tutti i giorni, andando oltre la comunità tecnica e raggiungendo la coscienza popolare. Infatti, è entrata nei media e nelle applicazioni più diffuse, tra cui gli agenti conversazionali come ChatGPT, i sistemi di raccomandazione di Netflix, i generatori di feed di Instagram e il riconoscimento facciale per sbloccare i dispositivi. Pertanto, analogamente all’elettricità o ai computer, l’IA deve essere considerata una tecnologia di uso generale con diverse applicazioni. Nel campo dell’healthcare, in particolare dell’imaging medico, l’integrazione dell’IA,
in particolare del deep learning (DL), ha un potenziale immenso. Ogni giorno, a livello globale, vengono generate grandi quantità di immagini mediche, che richiedono metodi di analisi nuovi ed efficienti. L’applicazione dell’IA a queste immagini potrebbe rivoluzionare la diagnostica e l’assistenza ai pazienti, ad esempio identificando i pazienti ad alto rischio, individuando precocemente malattie come il cancro, progettando piani di trattamento o sviluppando biomarcatori di medicina personalizzata. Tuttavia, questo settore presenta sfide significative e l’uso effettivo dell’IA in medicina rimane relativamente limitato. Le pesanti normative, le difficoltà di acquisizione fisica e le preoccupazioni per la privacy che stanno dietro alla raccolta dei dati medici rendono difficile la creazione di serie di dati su larga scala. A differenza degli esseri umani, l’IA non può lavorare bene su un regime di dati ridotto e l’IA medica fatica ancora di più ad apprendere una rappresentazione robusta dei dati per i compiti a valle. Non riesce a distinguere la correlazione dal nesso di causalità e finisce per apprendere scorciatoie per prevedere i risultati. Questo porta a un comportamento inaffidabile negli scenari successivi all’implementazione, quando la distribuzione dei dati cambia, come nel caso di radiografie del torace provenienti da un ospedale o da una macchina diversi. Inoltre, la mancanza di interpretabilità e spiegabilità dei modelli a scatola nera complica la capacità dei medici di fidarsi delle intuizioni generate dall’IA. Questa tesi cerca di allineare il DL con le capacità di ragionamento e le esigenze degli esseri umani per ottenere una classificazione delle immagini mediche più efficiente, spiegabile e robusta. In particolare, studiamo e proponiamo modi per affrontare le limitazioni sopra menzionate da tre prospettive: spiegabilità, causalità e visione biologica. La tesi inizia con un’introduzione alle nozioni di base riguardanti il DL, l’analisi delle immagini mediche, il campo dell’eXplainable AI (XAI), il DL causale e il sistema visivo umano. Poi inizia la prima delle tre prospettive: studiamo l’efficacia della visualizzazione delle rappresentazioni delle reti neurali sulle immagini mediche e verifichiamo l’applicabilità di una soluzione explainable-by-design per la classificazione delle masse mammarie. Segue una rassegna completa della letteratura all’intersezione tra XAI e causalità, in cui proponiamo un’impalcatura generale per raggruppare le ricerche passate e future. Questo apre le porte alla seconda prospettiva, quella della causalità. Studiamo e proponiamo nuovi moduli guidati dalla causalità per sfruttare la co-occorrenza delle caratteristiche nelle immagini mediche e consentire previsioni più efficaci e spiegabili. La tesi passa poi a un’indagine più approfondita delle capacità di generalizzazione, dove proponiamo un nuovo quadro generale che sfrutta i concetti di causalità, l’apprendimento contrastivo, la dissociazione delle caratteristiche e l’iniezione di conoscenze pregresse. Infine, passiamo alla terza prospettiva, la visione biologica. Studiamo il modo in cui gli esseri umani riescono a riconoscere gli oggetti e proponiamo una rete neurale ispirata alla connettività e un blocco di attenzione in grado di modellare il contesto visivo. Nel complesso, i nostri risultati principali indicano che: (i) la semplice massimizzazione dell’attivazione non è sufficiente per ottenere approfondimenti visivi nei modelli DL di imaging medico; (ii) l’apprendimento di parti prototipiche è efficace e le sue spiegazioni sono allineate con il punto di vista di un radiologo; (iii) i concetti di spiegazione e causalità, e i corrispondenti campi di ricerca di XAI e causal ML, sono fortemente intrecciati; (iv) è possibile sfruttare deboli segnali causali all’interno delle immagini mediche senza informazioni a priori e il nostro modulo migliora le prestazioni e le spiegazioni; (v) il nostro framework basato sulla causalità sfrutta efficacemente le informazioni provenienti da più domini medici e raggiunge una robusta generalizzazione ai dati fuori distribuzione; infine, (vi) l’incorporazione di motivi circuitali trovati nei cervelli biologici si è dimostrata efficace per un riconoscimento delle immagini più allineato all’uomo. L’obiettivo finale di questa tesi è offrire alla comunità scientifica spunti per rendere il DL più in linea con il ragionamento e le esigenze umane e proporre direzioni di ricerca promettenti che possano contribuire a colmare il divario tra gli sviluppi accademici e le applicazioni pratiche. Le implicazioni di avere modelli di DL più efficienti, robusti, spiegabili e generalizzabili sono il miglioramento dell’usabilità clinica e della fiducia, la riduzione degli errori diagnostici e un’adozione più sicura.
Versione in Inglese:
In recent years, artificial intelligence (AI) has become ubiquitous in everyday life, reaching beyond the technical community and into the popular consciousness. Indeed, it has entered mainstream media and applications, including ChatGPT-like conversational agents, Netflix recommendation systems, Instagram feed generators,
and face recognition to unlock your device. Thus, similarly to electricity or computers, AI must be considered a general-purpose technology with varying applications. In the realm of healthcare, particularly medical imaging, integrating AI, particularly deep learning (DL), holds immense potential. Daily, vast quantities of medical images
are generated globally, necessitating new and efficient methods for analysis. Applying AI to these images could revolutionize diagnostics and patient care, for instance, by identifying high-risk patients, detecting diseases like cancer early, designing treatment plans, or developing personalized medicine biomarkers. However, this area presents significant challenges, and the actual use of AI in medicine remains relatively limited. The heavy regulations, physical acquisition challenges, and privacy concerns behind medical data collection make it difficult to create large-scale datasets. Unlike humans, AI cannot work well on a low-data regime, and medical AI struggles even more to learn a robust data representation for downstream tasks. It falls short in distinguishing correlation from causation and ultimately learns shortcut paths to predict the outcome. This brings to unreliable behavior in post-deployment scenarios where the data distribution shifts, such as chest X-rays from a different hospital or machine. On top of that, the lack of interpretability and explainability of black box models complicates clinicians’ ability to trust AI-generated insights. This thesis seeks to align DL with humans’ reasoning capabilities and needs to achieve a more efficient, explainable, and robust medical image classification. Specifically, we study and propose ways of tackling the limitations mentioned above from three perspectives: explainability, causality, and biological vision. The thesis begins with an introduction to background notions regarding DL, medical image analysis, the field of eXplainable AI (XAI), causal DL, and the human visual system. Then, the first of the three perspectives begins - we study the effectiveness of neural networks’ representation visualization on medical images and verify the applicability of an explainable-by-design solution for breast mass classification. This is followed by a comprehensive literature review at the intersection of XAI and causality, where we propose a general scaffold to cluster past and future research. That opens the doors to the second perspective, causality. We study and propose novel causality-driven modules to exploit feature co-occurrence in medical images and enable more effective and explainable predictions. The thesis then progresses to a deeper investigation of generalization capabilities, where we propose a new general framework that leverages causal concepts, contrastive learning, feature disentanglement, and injection of prior knowledge. Finally, we bridge to the third perspective, biological vision. We study how humans achieve object recognition and propose a connectivity-inspired neural network and an attention block that can model visual context. Overall, our key findings indicate that: (i) simple activation maximization is not sufficient for getting visual insights into medical imaging DL models; (ii) prototypical part learning is effective and its explanations are aligned with a radiologist’s viewpoint; (iii) the concepts of explanation and causation, and the corresponding research fields of XAI and causal ML, are strongly intertwined; (iv) it is possible to exploit weak causal signals within medical images without a priori information and our module improves performance and explanations; (v) our causality-based framework effectively leverages information from multiple medical domains and attains robust generalization to out-of-distribution data; and, lastly, (vi) incorporating circuit motifs found in biological brains proved effective for a more human-aligned image recognition. The ultimate goal of this thesis is to offer the scientific community insights into ways to render DL more aligned with human reasoning and needs and to propose promising research directions that can help bridge the gap between academic development and practical applications. The implications of having more efficient, robust, explainable, and generalizable DL models are clinical usability and trust improvement, diagnostic error reduction, and safer adoption.
in particolare del deep learning (DL), ha un potenziale immenso. Ogni giorno, a livello globale, vengono generate grandi quantità di immagini mediche, che richiedono metodi di analisi nuovi ed efficienti. L’applicazione dell’IA a queste immagini potrebbe rivoluzionare la diagnostica e l’assistenza ai pazienti, ad esempio identificando i pazienti ad alto rischio, individuando precocemente malattie come il cancro, progettando piani di trattamento o sviluppando biomarcatori di medicina personalizzata. Tuttavia, questo settore presenta sfide significative e l’uso effettivo dell’IA in medicina rimane relativamente limitato. Le pesanti normative, le difficoltà di acquisizione fisica e le preoccupazioni per la privacy che stanno dietro alla raccolta dei dati medici rendono difficile la creazione di serie di dati su larga scala. A differenza degli esseri umani, l’IA non può lavorare bene su un regime di dati ridotto e l’IA medica fatica ancora di più ad apprendere una rappresentazione robusta dei dati per i compiti a valle. Non riesce a distinguere la correlazione dal nesso di causalità e finisce per apprendere scorciatoie per prevedere i risultati. Questo porta a un comportamento inaffidabile negli scenari successivi all’implementazione, quando la distribuzione dei dati cambia, come nel caso di radiografie del torace provenienti da un ospedale o da una macchina diversi. Inoltre, la mancanza di interpretabilità e spiegabilità dei modelli a scatola nera complica la capacità dei medici di fidarsi delle intuizioni generate dall’IA. Questa tesi cerca di allineare il DL con le capacità di ragionamento e le esigenze degli esseri umani per ottenere una classificazione delle immagini mediche più efficiente, spiegabile e robusta. In particolare, studiamo e proponiamo modi per affrontare le limitazioni sopra menzionate da tre prospettive: spiegabilità, causalità e visione biologica. La tesi inizia con un’introduzione alle nozioni di base riguardanti il DL, l’analisi delle immagini mediche, il campo dell’eXplainable AI (XAI), il DL causale e il sistema visivo umano. Poi inizia la prima delle tre prospettive: studiamo l’efficacia della visualizzazione delle rappresentazioni delle reti neurali sulle immagini mediche e verifichiamo l’applicabilità di una soluzione explainable-by-design per la classificazione delle masse mammarie. Segue una rassegna completa della letteratura all’intersezione tra XAI e causalità, in cui proponiamo un’impalcatura generale per raggruppare le ricerche passate e future. Questo apre le porte alla seconda prospettiva, quella della causalità. Studiamo e proponiamo nuovi moduli guidati dalla causalità per sfruttare la co-occorrenza delle caratteristiche nelle immagini mediche e consentire previsioni più efficaci e spiegabili. La tesi passa poi a un’indagine più approfondita delle capacità di generalizzazione, dove proponiamo un nuovo quadro generale che sfrutta i concetti di causalità, l’apprendimento contrastivo, la dissociazione delle caratteristiche e l’iniezione di conoscenze pregresse. Infine, passiamo alla terza prospettiva, la visione biologica. Studiamo il modo in cui gli esseri umani riescono a riconoscere gli oggetti e proponiamo una rete neurale ispirata alla connettività e un blocco di attenzione in grado di modellare il contesto visivo. Nel complesso, i nostri risultati principali indicano che: (i) la semplice massimizzazione dell’attivazione non è sufficiente per ottenere approfondimenti visivi nei modelli DL di imaging medico; (ii) l’apprendimento di parti prototipiche è efficace e le sue spiegazioni sono allineate con il punto di vista di un radiologo; (iii) i concetti di spiegazione e causalità, e i corrispondenti campi di ricerca di XAI e causal ML, sono fortemente intrecciati; (iv) è possibile sfruttare deboli segnali causali all’interno delle immagini mediche senza informazioni a priori e il nostro modulo migliora le prestazioni e le spiegazioni; (v) il nostro framework basato sulla causalità sfrutta efficacemente le informazioni provenienti da più domini medici e raggiunge una robusta generalizzazione ai dati fuori distribuzione; infine, (vi) l’incorporazione di motivi circuitali trovati nei cervelli biologici si è dimostrata efficace per un riconoscimento delle immagini più allineato all’uomo. L’obiettivo finale di questa tesi è offrire alla comunità scientifica spunti per rendere il DL più in linea con il ragionamento e le esigenze umane e proporre direzioni di ricerca promettenti che possano contribuire a colmare il divario tra gli sviluppi accademici e le applicazioni pratiche. Le implicazioni di avere modelli di DL più efficienti, robusti, spiegabili e generalizzabili sono il miglioramento dell’usabilità clinica e della fiducia, la riduzione degli errori diagnostici e un’adozione più sicura.
Versione in Inglese:
In recent years, artificial intelligence (AI) has become ubiquitous in everyday life, reaching beyond the technical community and into the popular consciousness. Indeed, it has entered mainstream media and applications, including ChatGPT-like conversational agents, Netflix recommendation systems, Instagram feed generators,
and face recognition to unlock your device. Thus, similarly to electricity or computers, AI must be considered a general-purpose technology with varying applications. In the realm of healthcare, particularly medical imaging, integrating AI, particularly deep learning (DL), holds immense potential. Daily, vast quantities of medical images
are generated globally, necessitating new and efficient methods for analysis. Applying AI to these images could revolutionize diagnostics and patient care, for instance, by identifying high-risk patients, detecting diseases like cancer early, designing treatment plans, or developing personalized medicine biomarkers. However, this area presents significant challenges, and the actual use of AI in medicine remains relatively limited. The heavy regulations, physical acquisition challenges, and privacy concerns behind medical data collection make it difficult to create large-scale datasets. Unlike humans, AI cannot work well on a low-data regime, and medical AI struggles even more to learn a robust data representation for downstream tasks. It falls short in distinguishing correlation from causation and ultimately learns shortcut paths to predict the outcome. This brings to unreliable behavior in post-deployment scenarios where the data distribution shifts, such as chest X-rays from a different hospital or machine. On top of that, the lack of interpretability and explainability of black box models complicates clinicians’ ability to trust AI-generated insights. This thesis seeks to align DL with humans’ reasoning capabilities and needs to achieve a more efficient, explainable, and robust medical image classification. Specifically, we study and propose ways of tackling the limitations mentioned above from three perspectives: explainability, causality, and biological vision. The thesis begins with an introduction to background notions regarding DL, medical image analysis, the field of eXplainable AI (XAI), causal DL, and the human visual system. Then, the first of the three perspectives begins - we study the effectiveness of neural networks’ representation visualization on medical images and verify the applicability of an explainable-by-design solution for breast mass classification. This is followed by a comprehensive literature review at the intersection of XAI and causality, where we propose a general scaffold to cluster past and future research. That opens the doors to the second perspective, causality. We study and propose novel causality-driven modules to exploit feature co-occurrence in medical images and enable more effective and explainable predictions. The thesis then progresses to a deeper investigation of generalization capabilities, where we propose a new general framework that leverages causal concepts, contrastive learning, feature disentanglement, and injection of prior knowledge. Finally, we bridge to the third perspective, biological vision. We study how humans achieve object recognition and propose a connectivity-inspired neural network and an attention block that can model visual context. Overall, our key findings indicate that: (i) simple activation maximization is not sufficient for getting visual insights into medical imaging DL models; (ii) prototypical part learning is effective and its explanations are aligned with a radiologist’s viewpoint; (iii) the concepts of explanation and causation, and the corresponding research fields of XAI and causal ML, are strongly intertwined; (iv) it is possible to exploit weak causal signals within medical images without a priori information and our module improves performance and explanations; (v) our causality-based framework effectively leverages information from multiple medical domains and attains robust generalization to out-of-distribution data; and, lastly, (vi) incorporating circuit motifs found in biological brains proved effective for a more human-aligned image recognition. The ultimate goal of this thesis is to offer the scientific community insights into ways to render DL more aligned with human reasoning and needs and to propose promising research directions that can help bridge the gap between academic development and practical applications. The implications of having more efficient, robust, explainable, and generalizable DL models are clinical usability and trust improvement, diagnostic error reduction, and safer adoption.
File
Nome file | Dimensione |
---|---|
tesiPhD_CARLONI.pdf | 16.83 Mb |
Contatta l’autore |