Tesi etd-09192017-161617 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
FERRARI, ELISA
URN
etd-09192017-161617
Titolo
Analisi di immagini biomediche per la ricerca di biomarcatori del Disturbo dello Spettro Autistico
Dipartimento
FISICA
Corso di studi
FISICA
Relatori
relatore Dott.ssa Retico, Alessandra
relatore Dott.ssa Fantacci, Maria Evelina
relatore Dott.ssa Fantacci, Maria Evelina
Parole chiave
- autismo
- disturbo dello spettro autistico
- knowledge discovery database
- machine learning
- neuroimaging
Data inizio appello
18/10/2017
Consultabilità
Completa
Riassunto
[English]
In this thesis, the problem of the research of a neuroanatomical biomarker for Autism with Nuclear Magnetic Resonance (NMR) brain images has been studied. Despite the efforts put and the various approaches tried, this kind of studies still has not reported a meaningful and shared result. I have therefore examined the methodologies of analysis of NMR data based on Machine Learning techniques, both in their basic assumptions and in their implementation.
Usually, these analyses are structured in three steps: (i) image gathering and selection, (ii) brain segmentation, extraction of neuroanatomical parameters and their normalization, (iii) use of Machine Learning algorithms to detect a recognizing pattern between data of healthy subjects and those with Autism. However there is not a shared agreement regarding how these steps are actually implemented.
In fact often each study follows different rules, often without verifying the effectiveness and correctness of the approach chosen. It emerged that the most common practices in this sector are based on wrong assumptions and can therefore influence the result of the study. In particular the analyses conducted showed that:
• The typical criterion of data selection, based on visual inspection of NMR data is insufficient, since it is not able to assess the goodness of the anatomical quantities extracted after the brain segmentation. In fact it has been verified that 16% of subjects that after the segmentation process had anomalous values actually had good NMR images.
• the quantities extracted with the most used segmentation tool in literature, Freesurfer, are characterized by a strong dependence on the NMR scanner and its parameters set for the acquisition. In fact, Machine Learning algorithms recognize with subjects acquired with different scanner parameters better than males and females. This finding severily questions the validity of multi-site studies.
• The most common normalization method of brain quantities, usually done in order to eliminate the dependency of the data from age and skull dimensions, is not effective and therefore only adds noise to the data.
After having identified the incorrect procedures and defined an adequate analysis methodology following the principles of Knowledge Discovery in Database (KDD), the performances of the classification of healthy and Autistic subjects have been assessed.
This analysis has been done first using the current definition of the disease of Autism Spectrum Disorder (ASD), described in the fifth edition of the Diagnostic Statistical Manual of mental diseases (DSM). Then, the same analysis has been repeated dividing the subjects in the diagnostic categories identified in the earlier DSM version, in which ASD subjects were divided in three more homogeneous classes: Autism Disease (AD), Asperger Syndrome (AS) and Pervasive Developmental Disorder, Not Otherwise Specified (PDD-NOS).
The classifier trained to recognize healthy subjects from ASDs reaches a modest performance of 59% (measured with AUC: Area Under the Receiver Operating Characteristic Curve). If instead the diagnostic categories of AD and PDD-NOS are used, performances go up to 63% and 82% AUC respectively. The subjects affected by Asperger Syndrome have not been found to be statistically distinguishable from healthy individuals.
In conclusion, in this thesis the existence of numerous sources of errors has been shown in the most common procedures used for neuorimages analysis. These errors may have contributed the inconsistency between the results available in literature. Furthermore, based on the new research methodology described in this work, it has been shown that the etherogeneity of the disease have a detrimental effect on the analysis. The obtained results, are a quantitatively consolidated starting point to direct future studies, that must be oriented towards the investigation of new diagnostic categories, better characterizable from the neuroanatomical point of view.
[Italiano]
In questa tesi è stato studiato il controverso problema della ricerca di un biomarcatore neuroanatomico dell'Autismo attraverso l'analisi di immagini cerebrali cliniche acquisite mediante Risonanza Magnetica Nuclearne (RMN). Nonostante i numerosi sforzi e i diversi approcci esplorati, questo genere di studi non ha ancora portato ad un risultato significativo e condiviso.
In questa tesi sono state, dunque, esaminate le metodologie di analisi dei dati di RMN basate su tecniche di Machine Learning, con riferimento sia alle assunzioni alla base, che al dettaglio implementativo.
Generalmente tali analisi si articolano in 3 passaggi: (i) raccolta e selezione delle immagini, (ii) segmentazione ed estrazione di grandezze neuroanatomiche e loro normalizzazione, (iii) utilizzo di algoritmi di Machine Learning per l'individuazione di un pattern di riconoscimento tra i dati relativi ai soggetti sani e a quelli affetti da Autismo. Tuttavia non vi è accordo sulle scelte procedurali di questi step, che sono stati implementati in modi diversi, spesso senza verificare l'efficacia dell'approccio scelto.
E' emerso che alcune delle più comuni pratiche, in questo settore, si basano su presupposti sbagliati e possono dunque condizionare il risultato dello studio. In particolare le analisi svolte hanno dimostrato che:
• Il tipico criterio di selezione dei dati, che si basa su una ispezione visiva delle immagini di RM è insufficiente, in quanto non è in grado di valutare la bontà delle grandezze estratte dopo la segmentazione. Si è infatti verificato che il 16% dei soggetti, che a seguito del processo di segmentazione automatica presentava valori anomali, aveva originariamente immagini di buona qualità.
• Le grandezze estratte con lo strumento di analisi e segmentazione cerebrale più utilizzato in letteratura, Freesufer, presentano una forte dipendenza dallo scanner e dai parametri di acquisizione. Infatti gli algoritmi di Machine Learning riconoscono con maggiore precisione i soggetti acquisiti con modalità differenti rispetto ai soggetti di diverso sesso.
Questo mette in discussione la validità dei risultati ottenuti in studi multi-sito.
• Il metodo di normalizzazione più comune delle grandezze cerebrali, volto a eliminare la dipendenza dei dati dall'età e dalla dimensione del cranio, non è efficace e quindi aggiunge solo rumore nel campione.
Dopo aver identificato le procedure scorrette e definito una adeguata metodologia di indagine seguendo i principi dello Knowledge Discovery in Database (KDD), sono state stimate le prestazioni di classificazione tra soggetti sani e affetti da Autismo.
Questa analisi è stata effettuata dapprima utilizzando la definizione corrente del disturbo, descritta nella quinta edizione del Manuale Diagnostico e Statistico dei Disturbi Mentali (DSM), ossia quella di "Disturbo dello Spettro Autistico" (DSA). Poi è stata ripetuta dividendo i soggetti nelle categorie diagnostiche identificate nella precedente edizione del DSM, in cui i DSA erano suddivisi in 3 classi più omogenee: "Disturbo Autistico" (DA), "Sindrome di Asperger" (SA) e "Disturbo Pervasivo (Generalizzato) dello Sviluppo Non Altrimenti Specificato" (DGS-NAS).
Il classificatore addestrato a distinguere i soggetti sani dai DSA raggiunge una modesta performance di riconoscimento del 59%, utilizzando come misura l'indicatore noto come AUC (sigla di "Area Under the Receiver Operating Characteristic Curve").
Quando invece vengono usate in addestramento le categorie diagnostiche di DA e DGS-NAS si ottengono rispettivamente AUC del 63% e del 82%. Non sono risultati invece statisticamente distinguibili dai soggetti sani gli individui affetti da SA.
Riassumendo, in questa tesi è stata dimostrata la presenza di alcune fonti di errore nelle procedure comunemente utilizzate per l'analisi delle neuroimmagini, che possono aver contribuito all’inconsistenza tra i risultati presenti in letteratura. Inoltre, sulla base della nuova metodologia di ricerca, introdotta in questo elaborato, è stato dimostrato che anche l'eterogeneità del disturbo ha un effetto confondente sull'analisi.
I risultati ottenuti forniscono un punto di partenza quantitativamente consolidato e fondamentale per indirizzare gli studi futuri, che dovranno essere orientati verso la ricerca di categorie diagnostiche meglio caratterizzabili dal punto di vista neuroanatomico.
In this thesis, the problem of the research of a neuroanatomical biomarker for Autism with Nuclear Magnetic Resonance (NMR) brain images has been studied. Despite the efforts put and the various approaches tried, this kind of studies still has not reported a meaningful and shared result. I have therefore examined the methodologies of analysis of NMR data based on Machine Learning techniques, both in their basic assumptions and in their implementation.
Usually, these analyses are structured in three steps: (i) image gathering and selection, (ii) brain segmentation, extraction of neuroanatomical parameters and their normalization, (iii) use of Machine Learning algorithms to detect a recognizing pattern between data of healthy subjects and those with Autism. However there is not a shared agreement regarding how these steps are actually implemented.
In fact often each study follows different rules, often without verifying the effectiveness and correctness of the approach chosen. It emerged that the most common practices in this sector are based on wrong assumptions and can therefore influence the result of the study. In particular the analyses conducted showed that:
• The typical criterion of data selection, based on visual inspection of NMR data is insufficient, since it is not able to assess the goodness of the anatomical quantities extracted after the brain segmentation. In fact it has been verified that 16% of subjects that after the segmentation process had anomalous values actually had good NMR images.
• the quantities extracted with the most used segmentation tool in literature, Freesurfer, are characterized by a strong dependence on the NMR scanner and its parameters set for the acquisition. In fact, Machine Learning algorithms recognize with subjects acquired with different scanner parameters better than males and females. This finding severily questions the validity of multi-site studies.
• The most common normalization method of brain quantities, usually done in order to eliminate the dependency of the data from age and skull dimensions, is not effective and therefore only adds noise to the data.
After having identified the incorrect procedures and defined an adequate analysis methodology following the principles of Knowledge Discovery in Database (KDD), the performances of the classification of healthy and Autistic subjects have been assessed.
This analysis has been done first using the current definition of the disease of Autism Spectrum Disorder (ASD), described in the fifth edition of the Diagnostic Statistical Manual of mental diseases (DSM). Then, the same analysis has been repeated dividing the subjects in the diagnostic categories identified in the earlier DSM version, in which ASD subjects were divided in three more homogeneous classes: Autism Disease (AD), Asperger Syndrome (AS) and Pervasive Developmental Disorder, Not Otherwise Specified (PDD-NOS).
The classifier trained to recognize healthy subjects from ASDs reaches a modest performance of 59% (measured with AUC: Area Under the Receiver Operating Characteristic Curve). If instead the diagnostic categories of AD and PDD-NOS are used, performances go up to 63% and 82% AUC respectively. The subjects affected by Asperger Syndrome have not been found to be statistically distinguishable from healthy individuals.
In conclusion, in this thesis the existence of numerous sources of errors has been shown in the most common procedures used for neuorimages analysis. These errors may have contributed the inconsistency between the results available in literature. Furthermore, based on the new research methodology described in this work, it has been shown that the etherogeneity of the disease have a detrimental effect on the analysis. The obtained results, are a quantitatively consolidated starting point to direct future studies, that must be oriented towards the investigation of new diagnostic categories, better characterizable from the neuroanatomical point of view.
[Italiano]
In questa tesi è stato studiato il controverso problema della ricerca di un biomarcatore neuroanatomico dell'Autismo attraverso l'analisi di immagini cerebrali cliniche acquisite mediante Risonanza Magnetica Nuclearne (RMN). Nonostante i numerosi sforzi e i diversi approcci esplorati, questo genere di studi non ha ancora portato ad un risultato significativo e condiviso.
In questa tesi sono state, dunque, esaminate le metodologie di analisi dei dati di RMN basate su tecniche di Machine Learning, con riferimento sia alle assunzioni alla base, che al dettaglio implementativo.
Generalmente tali analisi si articolano in 3 passaggi: (i) raccolta e selezione delle immagini, (ii) segmentazione ed estrazione di grandezze neuroanatomiche e loro normalizzazione, (iii) utilizzo di algoritmi di Machine Learning per l'individuazione di un pattern di riconoscimento tra i dati relativi ai soggetti sani e a quelli affetti da Autismo. Tuttavia non vi è accordo sulle scelte procedurali di questi step, che sono stati implementati in modi diversi, spesso senza verificare l'efficacia dell'approccio scelto.
E' emerso che alcune delle più comuni pratiche, in questo settore, si basano su presupposti sbagliati e possono dunque condizionare il risultato dello studio. In particolare le analisi svolte hanno dimostrato che:
• Il tipico criterio di selezione dei dati, che si basa su una ispezione visiva delle immagini di RM è insufficiente, in quanto non è in grado di valutare la bontà delle grandezze estratte dopo la segmentazione. Si è infatti verificato che il 16% dei soggetti, che a seguito del processo di segmentazione automatica presentava valori anomali, aveva originariamente immagini di buona qualità.
• Le grandezze estratte con lo strumento di analisi e segmentazione cerebrale più utilizzato in letteratura, Freesufer, presentano una forte dipendenza dallo scanner e dai parametri di acquisizione. Infatti gli algoritmi di Machine Learning riconoscono con maggiore precisione i soggetti acquisiti con modalità differenti rispetto ai soggetti di diverso sesso.
Questo mette in discussione la validità dei risultati ottenuti in studi multi-sito.
• Il metodo di normalizzazione più comune delle grandezze cerebrali, volto a eliminare la dipendenza dei dati dall'età e dalla dimensione del cranio, non è efficace e quindi aggiunge solo rumore nel campione.
Dopo aver identificato le procedure scorrette e definito una adeguata metodologia di indagine seguendo i principi dello Knowledge Discovery in Database (KDD), sono state stimate le prestazioni di classificazione tra soggetti sani e affetti da Autismo.
Questa analisi è stata effettuata dapprima utilizzando la definizione corrente del disturbo, descritta nella quinta edizione del Manuale Diagnostico e Statistico dei Disturbi Mentali (DSM), ossia quella di "Disturbo dello Spettro Autistico" (DSA). Poi è stata ripetuta dividendo i soggetti nelle categorie diagnostiche identificate nella precedente edizione del DSM, in cui i DSA erano suddivisi in 3 classi più omogenee: "Disturbo Autistico" (DA), "Sindrome di Asperger" (SA) e "Disturbo Pervasivo (Generalizzato) dello Sviluppo Non Altrimenti Specificato" (DGS-NAS).
Il classificatore addestrato a distinguere i soggetti sani dai DSA raggiunge una modesta performance di riconoscimento del 59%, utilizzando come misura l'indicatore noto come AUC (sigla di "Area Under the Receiver Operating Characteristic Curve").
Quando invece vengono usate in addestramento le categorie diagnostiche di DA e DGS-NAS si ottengono rispettivamente AUC del 63% e del 82%. Non sono risultati invece statisticamente distinguibili dai soggetti sani gli individui affetti da SA.
Riassumendo, in questa tesi è stata dimostrata la presenza di alcune fonti di errore nelle procedure comunemente utilizzate per l'analisi delle neuroimmagini, che possono aver contribuito all’inconsistenza tra i risultati presenti in letteratura. Inoltre, sulla base della nuova metodologia di ricerca, introdotta in questo elaborato, è stato dimostrato che anche l'eterogeneità del disturbo ha un effetto confondente sull'analisi.
I risultati ottenuti forniscono un punto di partenza quantitativamente consolidato e fondamentale per indirizzare gli studi futuri, che dovranno essere orientati verso la ricerca di categorie diagnostiche meglio caratterizzabili dal punto di vista neuroanatomico.
File
Nome file | Dimensione |
---|---|
TESI_VER...RRARI.pdf | 3.37 Mb |
Contatta l’autore |