logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-11072024-170045


Tipo di tesi
Tesi di laurea magistrale
Autore
MERCURIO, ILARIA
URN
etd-11072024-170045
Titolo
Sviluppo di Tecniche di Intelligenza Artificiale per la Caratterizzazione della Malattia Coronarica da Immagini TAC
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
INGEGNERIA BIOMEDICA
Relatori
relatore Prof. Vozzi, Giovanni
relatore Prof. Positano, Vincenzo
relatore Ing. De Santi, Lisa Anita
Parole chiave
  • analisi componenti principali gerarchica (HCPC)
  • analisi corrispondenze multiple (MCA)
  • clustering
  • deep learning
  • indici rischio CAD
  • integrazione dati clinici e immagini CT
  • pre-processing
  • ResNet-18 3D
  • tomografia computerizzata (CT)
  • transfer learning
Data inizio appello
27/11/2024
Consultabilità
Completa
Riassunto
La malattia coronarica (CAD) è una condizione patologica in cui le arterie coronarie che irrorano il cuore, presentano un restringimento del lume (stenosi) o un’occlusione a causa dell’accumulo di placche aterosclerotiche, riducendo il flusso sanguigno e provocando sintomi come l’angina o, nel caso di un’ostruzione completa, l’infarto miocardico. L’importanza clinica della CAD ha portato allo sviluppo di tecniche diagnostiche non invasive come la tomografia computerizzata (CT) e, in particolare, l’angiografia coronarica mediante tomografia computerizzata (CCTA). Quest’ultima permette di ricavare informazioni cruciali, tra cui la presenza di placche extraluminali e la loro composizione, dati che non sarebbero ottenibili tramite angiografia coronarica invasiva (ICA). Grazie alla sincronizzazione con l’ECG, la CCTA permette di ottenere immagini ad alta risoluzione e con riduzione degli artefatti da movimento. Le informazioni derivate dall’acquisizione CT, associate all’uso di un modello standardizzato dell’albero coronarico, sono integrate in indici specifici che forniscono una valutazione approfondita del rischio coronarico. Gli indici CAD sono suddivisi in tre principali categorie: a livello di paziente, come l’indice CAD (0-3), che valuta la presenza o assenza di CAD; a livello di vaso, come l’indice CAD (0-4), che conta il numero di vasi coronarici coinvolti da placca; a livello di segmento, che include indici come il Segment Involvement Score (0-16), che valuta il numero di segmenti che presentano placca, e lo Score di Leiden (0-42), che integra diverse caratteristiche della placca per ogni segmento.
Dallo stato dell’arte emerge che l’integrazione dell’intelligenza artificiale (IA) nella medicina cardiovascolare rappresenta un’opportunità significativa per migliorare la diagnosi, il trattamento e la prognosi delle malattie cardiovascolari. In particolare, l’adozione di reti neurali convoluzionali (CNN) nell’imaging coronarico ha dimostrato un’elevata precisione nel rilevare stenosi coronariche e nel caratterizzare la composizione delle placche, proponendosi come un’alternativa promettente ai tradizionali punteggi di rischio CAD. Questi approcci hanno il potenziale di automatizzare il processo diagnostico, migliorando la precisione e l’efficacia dei risultati clinici. Attualmente, esistono modelli di deep learning che combinano dati clinici e informazioni radiomiche estratte da immagini CT, con risultati che indicano una previsione più accurata rispetto all’uso di singoli set di dati. Tali metodologie potrebbero trovare applicazioni sempre più ampie nel campo della medicina cardiovascolare.
Il presente studio si avvale di un dataset costituito da dati clinici e immagini di tomografia computerizzata delle arterie coronarie provenienti da uno dei centri partecipanti al registro CONFIRM2, acronimo di COronary CT Angiography EvaluatioN For Clinical Outcomes: An International, Multicenter Registry.
La prima parte del lavoro ha riguardato l’implementazione di un approccio di Clustering non supervisionato per analizzare le manifestazioni della malattia coronarica in una popolazione con sospetta CAD e determinare il numero ottimale di cluster, utilizzando l’Analisi delle Corrispondenze Multiple (MCA) seguita dall’Analisi delle Componenti Principali Gerarchica (HCPC). Successivamente, i risultati dell’HCPC sono stati impiegati per addestrare un classificatore supervisionato Random Forest (RF), con l’obiettivo di identificare le caratteristiche dei pazienti più rilevanti nella distinzione tra i diversi gruppi e di valutare l’influenza dei quattro indici di malattia coronarica nella loro definizione. Gli indici CAD e la presenza di calcio coronarico si sono dimostrati le variabili più influenti nella classificazione, come confermato anche dai risultati ottenuti con un Multilayer Perceptron (MLP) e dall’uso di tecniche di Explainable Artificial Intelligence (XAI), quali SHAP, Permutation Feature Importance e Partial Dependence Plot (PDP). Questi metodi hanno permesso di comprendere quali variabili influenzano maggiormente il processo decisionale del modello.
La valutazione visiva della CCTA, che si basa sull’assegnazione di vari indici di rischio CAD, è un processo che richiede molto tempo e dipende fortemente dall’operatore. Per superare questa limitazione, è stato sviluppato CoroNet, un modello di intelligenza artificiale ideato per automatizzare la caratterizzazione della CAD nelle immagini CCTA. Questo sistema si concentra su un indice CAD specifico e ha come obiettivo principale la classificazione dei pazienti in base al grado di stenosi, replicando le soglie cliniche di rischio CAD a livello paziente.
Nel processo di sviluppo, sono stati sperimentati vari approcci di Transfer Learning, selezionando infine una ResNet-18 3D, ovvero una CNN pre-addestrata sul dataset Kinetics-400, applicando il Fine-tuning completo. Questa scelta ha permesso di aggiornare tutti i pesi della rete, adattandola ai nuovi dati pur mantenendo parte della conoscenza acquisita nel training iniziale.
Dopo aver definito l’architettura, è stato eseguito il pre-processing sui volumi CT, prima dell’addestramento della rete. Per ogni paziente, le informazioni relative allo studio, allo scanner e alle immagini CCTA sono state archiviate in un database sulla base dell’ID paziente. Il pre-processing dei volumi CT è stato strutturato in quattro fasi principali: ordinamento delle slices, conversione dei valori dei pixel in unità Hounsfield (HU), ricampionamento delle immagini e salvataggio degli array in formato NumPy. L’ordinamento delle slices, tramite gli attributi DICOM ImageOrientationPatient e ImagePositionPatient, ha assicurato la corretta disposizione assiale delle immagini. La conversione dei valori in HU ha standardizzato la radiodensità, utilizzando i parametri RescaleSlope e RescaleIntercept. Il ricampionamento ha garantito una risoluzione diagnostica adeguata per la CAD; in particolare, i volumi con slice inferiori a 0,75 mm sono stati sottocampionati a questo spessore per evitare la perdita di dettagli. È stata scelta l’interpolazione B-Spline per una maggiore precisione rispetto ad altre tecniche come il Nearest Neighbor o Lineare. Infine, i volumi sono stati convertiti in array NumPy a 16 bit, mantenendo l’ID del paziente per riferimento. In una fase finale del pre-processing, sono stati applicati cropping, ridimensionamento con fattore di downsampling di 0.5 e normalizzazione. In particolare, il cropping ha consentito di uniformare il numero di slices, permettendo di definire una Region Of Interest (ROI) centrata sul cuore equivalente al Field of View (FOV) minimo, pari a 131,25 mm. Quest’ultimo, corrispondente a un totale di 175 slices, è conforme alle dimensioni medie del cuore riportate in letteratura.
Sono state implementate diverse tecniche per ottimizzare l’addestramento e migliorare le prestazioni del modello di rete neurale, tra cui il Lazy Loading, la Stratified 5-Fold Cross-validation, il Weighted Random Sampler, l’Early Stopping e la Data Augmentation.
Il modello è stato inizialmente testato per distinguere tre categorie di malattia coronarica: assenza di patologia, CAD non ostruttiva (stenosi <50%) e CAD ostruttiva (stenosi ≥ 50%). I risultati hanno mostrato una maggiore accuratezza nel discriminare tra assenza di malattia e CAD ostruttiva rispetto alla distinzione tra assenza di malattia e CAD non ostruttiva. Questo evidenzia che il modello è particolarmente efficace nell’individuare casi di stenosi significativa. Di conseguenza, nello studio è stato adottato un approccio di classificazione binaria per il punteggio CAD, consentendo alla rete di focalizzarsi sulla presenza di CAD ostruttiva, che ha implicazioni dirette nel trattamento e nella gestione del paziente.
Il modello sviluppato ha raggiunto risultati promettenti, con un’accuratezza di 0,79 , una sensibilità di 0,75 , una specificità di 0,89 e un AUC di 0,86.
In un passo successivo, le variabili cliniche e le mappe di attivazione vettorizzate sono state concatenate prima del livello fully connected del modello CoroNet. In questa fase, il modello CoroNet è stato utilizzato come estrattore di caratteristiche, combinando le informazioni estratte dai volumi CT con i dati clinici in un database strutturato, con un riferimento univoco all’identificativo del paziente. La pipeline finale si avvale di un Multi-Layer Perceptron (MLP) con due hidden layer fully connected da 32 e 16 nodi, sperimentando diverse combinazioni di variabili cliniche, punteggio di Agatston e caratteristiche estratte, per valutare l’impatto dell’integrazione tra dati clinici e di imaging sull’accuratezza del modello.
Questo approccio ha migliorato le prestazioni di classificazione rispetto, all’utilizzo dei soli dati clinici (AUC 0,75 , accuratezza 0,66 , sensibilità 0,68 , specificità 0,66) o dei soli dati di imaging prima riportati. In particolare, la combinazione tra dati clinici e caratteristiche estratte dalle immagini CT ha consentito di ottenere un AUC di 0,99 , una sensibilità di 1, una specificità di 0,9 e un’accuratezza di 0,92 , dimostrando un’eccellente capacità del modello nel rilevare i pazienti che necessitano di ulteriori indagini o interventi.
L’utilizzo della Permutation Feature Importance, in questo caso ha evidenziato come le caratteristiche estratte dalle immagini CT siano le più rilevanti nelle decisioni del modello.
In conclusione, i risultati ottenuti mostrano che la rete convoluzionale CoroNet, con l’architettura proposta, può essere utilizzata per automatizzare la diagnosi della malattia coronarica a livello di paziente. Inoltre, l’integrazione di dati clinici e di imaging si conferma, anche nel campo cardiovascolare, come una strategia vincente per migliorare l’accuratezza delle diagnosi.
File