Tesi etd-05282019-093350 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
SALVATORI, MASSIMILIANO
URN
etd-05282019-093350
Titolo
Sviluppo di una rete antagonista generativa per la segmentazione epatica di immagini TC multifase
Dipartimento
INGEGNERIA DELL'INFORMAZIONE
Corso di studi
INGEGNERIA BIOMEDICA
Relatori
relatore Prof. Chiappino, Dante
relatore Ing. Della Latta, Daniele
relatore Ing. Martini, Nicola
controrelatore Prof.ssa Santarelli, Maria Filomena
relatore Ing. Della Latta, Daniele
relatore Ing. Martini, Nicola
controrelatore Prof.ssa Santarelli, Maria Filomena
Parole chiave
- Deep Learning
- GAN
- segmentazione apatica
- TC multifase
- Tomografia Computerizzata (TC)
Data inizio appello
14/06/2019
Consultabilità
Completa
Riassunto
In europa si effettuano annualmente circa cento milioni di esami TC [1]. Il 20% di queste riguarda il distretto anatomico addominale. In particolare lo studio del fegato permette di diagnosticare patologie quali fibrosi e tumori che possono alterare la morfologia epatica.
La tomografia computerizzata (TC) è una modalità di diagnostica con la quale è possibile generare immagini tridimensionali dell'anatomia, grazie alla misura dell’attenuazione di un fascio di fotoni passanti per il corpo umano. A causa delle poche differenze in quanto ad attenuazione dei singoli organi e della vascolarizzazione addominale, per un’accurata analisi è dunque necessario l’utilizzo di mezzo di contrasto. Esso è composto da molecole ad elevato numero atomico z (iodio), che producono una maggiore attenuazione nei tessuti in cui circolano aumentando il contrasto dell’immagine. Per poter procedere ad una lettura diagnostica delle immagini dei vari organi addominali, il protocollo di acquisizione è composto da più scansioni, che permettono di monitorare la cinetica dell'avanzamento del mezzo di contrasto dalla fase arteriosa fino a quella portale.
Negli ultimi anni l'ingresso nella routine clinica di CAD e sistemi di pianificazione del trattamento hanno aumentato esponenzialmente il quantitativo di dati da processare, richiedendo di conseguenza metodiche di segmentazione rapide ed accurate, che annullino inoltre il problema della variabilità inter e intra operatore.
Il Deep Learning è un ramo dell’intelligenza artificiale basato sull’utilizzo di reti neurali profonde che, negli ultimi anni, ha trovato ampio utilizzo in vari campi come classificazione e segmentazione di immagini grazie all’implementazione di particolari architetture di rete chiamate Reti Neurali Convolutive (CNN). Esse sono ispirate dall'organizzazione della corteccia visiva animale, i cui neuroni sono disposti in maniera tale da rispondere alle regioni di sovrapposizione che tassellano il campo visivo.
In particolar modo la V-net, proposta nel 2016 da Milletari et al. [2] ha mostrato ottime capacità di segmentazione prostatica da volumi MRI. Essa può essere suddivisa in due parti: encoder e decoder. La parte di encoding permette di estrarre features spaziali dai volumi di input. La parte di decoding, invece, ha il compito di utilizzare tali features per comporre una maschera che vada a massimizzare l’indice Dice con una maschera attesta.
Il presente lavoro di tesi, svolto presso l’U.O.C. di Diagnostica per Immagini della Fondazione Toscana G. Monasterio dell'Ospedale del Cuore di Massa, è parte integrante dell’attività della deep.health.unit (DHU) ed ha l’obiettivo di sviluppare un’architettura di rete neurale antagonista per la segmentazione epatica, utilizzando immagini TC multifase.
Per il corretto sviluppo di un’architettura DL in grado di segmentare correttamente il fegato partendo da immagini TC multifase è stato definito un dataset di training composto da 145 studi.
Per rendere l’algoritmo generalizzato e dunque indipendente dal tipo di acquisizione, il dataset è stato composto da 105 volumi provenienti da Liver Tumor Segmentation (LiTS) Challengee e 40 volumi dall’Ospedale del Cuore G. Pasquinucci (FTGM).
La strategia di implementazione ed addestramento della rete scelta è stata quella Generative Adversarial Networks (GAN), sviluppata da Ian Goodfellow nel 2014 [3]. Le reti generative si discostano dalle discriminative, in quanto non si occupano di classificare gli ingressi, bensì di produrre nuovi dati da variabili latenti z, andando a stimare la distribuzione di probabilità dei dati reali pdata(x). Prima della realizzazione delle GAN, il poco successo di questi modelli era dovuto alla difficoltà nel trovare una funzione costo che permettesse di addestrare la rete a produrre dati verosimili.
Le GAN sono composte da due reti neurali convolutive, chiamate generatore G e discriminatore D, in competizione tra loro. Il generatore ha lo scopo di prendere in ingresso un vettore di variabili latenti z e creare dati verosimili G(z), mentre il discriminatore ha il compito di distinguere le immagini create dal generatore da immagini appartenenti ad un dataset reale. Rispetto alle reti convolutive convenzionali, la particolarità dell’architettura GAN risiede proprio nella presenza del discriminatore. Il generatore è infatti costretto a stimare la distribuzione dei dati reali da approssimare attraverso le informazioni che riceve dal discriminatore. Questo dona alle reti antagoniste generative una grande adattabilità nel cercare soluzioni a problemi anche molto diversi tra loro.
Nel 2018 Isola et al. hanno sviluppato un modello di rete antagonista condizionata, chiamata pix2pix, per il trasferimento di stili tra immagini, utilizzato, ad esempio, per realizzare mappe da foto aeree [6]. Partendo da questo modello, nato per l’imaging naturale 2D, si è sviluppata una rete che potesse essere applicata in ambito biomedicale, con dataset tridimensionali. A tal fine è stata implementata come generatore della rete antagonista una particolare versione di V-net.
Sia la rete antagonista, sia la singola V-net, sono state addestrate sul dataset LiTS per valutare se la nuova architettura comporti effettivi miglioramenti rispetto alla V-net convenzionale. Al termine di 450 epoche di addestramento, necessarie al raggiungimento di un valore minimo stabile della funzione costo, sono state confrontate le performance delle due reti su un dataset di test composto da 25 immagini TC multifase. La rete antagonista ha dimostrato di migliorare le capacità di segmentazione della singola V-net, ottenendo una sovrapposizione con il gold standard del 96% secondo l’indice Dice.
La GAN è stata poi testata su 10 immagini TC di pazienti con sospetta presenza di steatosi epatica.
A partire dalle segmentazioni ottenute dalla rete, sono stati calcolati i valori medi di attenuazione relativi ai volumi, ottenendo risultati concordi con le aspettative. Il tempo impiegato dall’algoritmo per segmentare e restituire la stima del valor medio di HU si aggira intorno ai 32 secondi per volume.
Si ritiene dunque che questa applicazione possa essere d’ausilio per i medici, consentendo loro di focalizzarsi sui pazienti che presentino stime di HU medio inferiori alla soglia limite.
La tomografia computerizzata (TC) è una modalità di diagnostica con la quale è possibile generare immagini tridimensionali dell'anatomia, grazie alla misura dell’attenuazione di un fascio di fotoni passanti per il corpo umano. A causa delle poche differenze in quanto ad attenuazione dei singoli organi e della vascolarizzazione addominale, per un’accurata analisi è dunque necessario l’utilizzo di mezzo di contrasto. Esso è composto da molecole ad elevato numero atomico z (iodio), che producono una maggiore attenuazione nei tessuti in cui circolano aumentando il contrasto dell’immagine. Per poter procedere ad una lettura diagnostica delle immagini dei vari organi addominali, il protocollo di acquisizione è composto da più scansioni, che permettono di monitorare la cinetica dell'avanzamento del mezzo di contrasto dalla fase arteriosa fino a quella portale.
Negli ultimi anni l'ingresso nella routine clinica di CAD e sistemi di pianificazione del trattamento hanno aumentato esponenzialmente il quantitativo di dati da processare, richiedendo di conseguenza metodiche di segmentazione rapide ed accurate, che annullino inoltre il problema della variabilità inter e intra operatore.
Il Deep Learning è un ramo dell’intelligenza artificiale basato sull’utilizzo di reti neurali profonde che, negli ultimi anni, ha trovato ampio utilizzo in vari campi come classificazione e segmentazione di immagini grazie all’implementazione di particolari architetture di rete chiamate Reti Neurali Convolutive (CNN). Esse sono ispirate dall'organizzazione della corteccia visiva animale, i cui neuroni sono disposti in maniera tale da rispondere alle regioni di sovrapposizione che tassellano il campo visivo.
In particolar modo la V-net, proposta nel 2016 da Milletari et al. [2] ha mostrato ottime capacità di segmentazione prostatica da volumi MRI. Essa può essere suddivisa in due parti: encoder e decoder. La parte di encoding permette di estrarre features spaziali dai volumi di input. La parte di decoding, invece, ha il compito di utilizzare tali features per comporre una maschera che vada a massimizzare l’indice Dice con una maschera attesta.
Il presente lavoro di tesi, svolto presso l’U.O.C. di Diagnostica per Immagini della Fondazione Toscana G. Monasterio dell'Ospedale del Cuore di Massa, è parte integrante dell’attività della deep.health.unit (DHU) ed ha l’obiettivo di sviluppare un’architettura di rete neurale antagonista per la segmentazione epatica, utilizzando immagini TC multifase.
Per il corretto sviluppo di un’architettura DL in grado di segmentare correttamente il fegato partendo da immagini TC multifase è stato definito un dataset di training composto da 145 studi.
Per rendere l’algoritmo generalizzato e dunque indipendente dal tipo di acquisizione, il dataset è stato composto da 105 volumi provenienti da Liver Tumor Segmentation (LiTS) Challengee e 40 volumi dall’Ospedale del Cuore G. Pasquinucci (FTGM).
La strategia di implementazione ed addestramento della rete scelta è stata quella Generative Adversarial Networks (GAN), sviluppata da Ian Goodfellow nel 2014 [3]. Le reti generative si discostano dalle discriminative, in quanto non si occupano di classificare gli ingressi, bensì di produrre nuovi dati da variabili latenti z, andando a stimare la distribuzione di probabilità dei dati reali pdata(x). Prima della realizzazione delle GAN, il poco successo di questi modelli era dovuto alla difficoltà nel trovare una funzione costo che permettesse di addestrare la rete a produrre dati verosimili.
Le GAN sono composte da due reti neurali convolutive, chiamate generatore G e discriminatore D, in competizione tra loro. Il generatore ha lo scopo di prendere in ingresso un vettore di variabili latenti z e creare dati verosimili G(z), mentre il discriminatore ha il compito di distinguere le immagini create dal generatore da immagini appartenenti ad un dataset reale. Rispetto alle reti convolutive convenzionali, la particolarità dell’architettura GAN risiede proprio nella presenza del discriminatore. Il generatore è infatti costretto a stimare la distribuzione dei dati reali da approssimare attraverso le informazioni che riceve dal discriminatore. Questo dona alle reti antagoniste generative una grande adattabilità nel cercare soluzioni a problemi anche molto diversi tra loro.
Nel 2018 Isola et al. hanno sviluppato un modello di rete antagonista condizionata, chiamata pix2pix, per il trasferimento di stili tra immagini, utilizzato, ad esempio, per realizzare mappe da foto aeree [6]. Partendo da questo modello, nato per l’imaging naturale 2D, si è sviluppata una rete che potesse essere applicata in ambito biomedicale, con dataset tridimensionali. A tal fine è stata implementata come generatore della rete antagonista una particolare versione di V-net.
Sia la rete antagonista, sia la singola V-net, sono state addestrate sul dataset LiTS per valutare se la nuova architettura comporti effettivi miglioramenti rispetto alla V-net convenzionale. Al termine di 450 epoche di addestramento, necessarie al raggiungimento di un valore minimo stabile della funzione costo, sono state confrontate le performance delle due reti su un dataset di test composto da 25 immagini TC multifase. La rete antagonista ha dimostrato di migliorare le capacità di segmentazione della singola V-net, ottenendo una sovrapposizione con il gold standard del 96% secondo l’indice Dice.
La GAN è stata poi testata su 10 immagini TC di pazienti con sospetta presenza di steatosi epatica.
A partire dalle segmentazioni ottenute dalla rete, sono stati calcolati i valori medi di attenuazione relativi ai volumi, ottenendo risultati concordi con le aspettative. Il tempo impiegato dall’algoritmo per segmentare e restituire la stima del valor medio di HU si aggira intorno ai 32 secondi per volume.
Si ritiene dunque che questa applicazione possa essere d’ausilio per i medici, consentendo loro di focalizzarsi sui pazienti che presentino stime di HU medio inferiori alla soglia limite.
File
Nome file | Dimensione |
---|---|
Thesis.pdf | 21.02 Mb |
Contatta l’autore |