Tesi etd-01232022-230032 |
Link copiato negli appunti
Tipo di tesi
Tesi di laurea magistrale
Autore
MACELLONI, FABIO
URN
etd-01232022-230032
Titolo
Approssimazione di funzioni tramite machine learning: applicazione a funzioni analitiche e all'inversione di dati ERT con algoritmi genetici
Dipartimento
SCIENZE DELLA TERRA
Corso di studi
GEOFISICA DI ESPLORAZIONE E APPLICATA
Relatori
relatore Aleardi, Mattia
relatore Stucchi, Eusebio Maria
relatore Stucchi, Eusebio Maria
Parole chiave
- algoritmi genetici
- convolutional neural networks
- dct
- ert inversion
- funzione di misfit
- genetic algorithms
- inversione ert
- machine learning
- misfit function
Data inizio appello
25/02/2022
Consultabilità
Completa
Riassunto
Questo lavoro di tesi ha avuto come obiettivo principale l’implementazione di una procedura basata su tecniche di machine learning (ML) che permettesse di ridurre i tempi di calcolo in un’inversione di tomografia elettrica di resistività (ERT). Una rete neurale convoluzionale (CNN) è stata costruita ed addestrata ad associare ad un modello di resistività il corrispondente data misfit. Approssimando in questo modo la funzione oggetto, è stato possibile evitare il passaggio di forward modeling, computazionalmente molto costoso.
La ERT è un problema inverso non lineare e mal condizionato, solitamente affrontato con metodi deterministici in cui la direzione di ricerca è definita dal gradiente della funzione da minimizzare. Le incognite da determinare sono i valori di resistività corrispondenti alle varie celle in cui il sottosuolo è discretizzato. È stato deciso di affrontare il problema con un metodo di ottimizzazione globale, gli algoritmi genetici (GA): questi permettono di esplorare lo spazio dei modelli seguendo un procedimento fatto di selezione, ricombinazione e mutazione che si ispira ai processi di selezione naturale. Il vantaggio offerto da un metodo globale come i GA è quello di ridurre il rischio di convergenza a minimi locali della funzione errore. Esistono, però, due aspetti che rendono l’inversione di dati ERT un problema complesso da affrontare con algoritmi di ricerca globali: da un lato l’alta dimensione dello spazio dei parametri, quindi un grande numero di incognite da ottimizzare (il costo computazionale di un’inversione globale aumenta esponenzialmente col numero delle incognite), dall’altro un forward modeling computazionalmente costoso. Per mitigare il primo problema esistono varie tecniche di riparametrizzazione del modello. In questo caso è stata utilizzata la Discrete Cosine Transform (DCT), una trasformata che permette di esprimere un segnale finito come somma di funzioni base cosinusoidali pesate da opportuni coefficienti: sono proprio tali coefficienti a diventare le incognite del problema inverso. Una proprietà importante della DCT è quella di concentrare la maggior parte dell’energia del segnale di partenza nei coefficienti di basso ordine: è sufficiente, perciò, considerare solamente un ridotto numero di coefficienti per descrivere il segnale senza perdere informazioni rilevanti. La DCT consente, così, di ridurre la dimensionalità del problema, diminuendo anche lo sforzo computazionale richiesto per affrontarlo. Le funzioni base che compongono il segnale trasformato sono ortogonali tra loro e questa proprietà permette di assolvere alla richiesta, da parte degli algoritmi di ottimizzazione globale, che le incognite siano indipendenti l’una dall’altra. Invertire direttamente il modello, in questo caso nel dominio delle resistività, sarebbe come tentare di ottimizzare il valore di ciascun parametro indipendentemente dagli altri. Questo, però, non sarebbe corretto, in quanto deve sussistere una correlazione tra parametri del modello spazialmente vicini tra loro. Il secondo ostacolo, quello riguardante il costo computazionale del forward modeling, è il motivo che ha spinto a cercare di sviluppare una nuova procedura basata sull’utilizzo di tecniche di machine learning. Queste si basano sulla creazione di modelli di calcolo detti reti neurali (NN) e sul loro addestramento (training), attraverso esempi, a risolvere determinati problemi (come riconoscimento e classificazione di immagini, fitting di dati, previsione di eventi futuri, individuazione di pattern nascosti o raggruppamenti nei dati). Il processo di training consiste in un problema di ottimizzazione nel quale si cerca di minimizzare l’errore che la rete compie, nel fare predizioni, rispetto agli output attesi. In questo caso l’obiettivo era la costruzione di una rete neurale in grado di apprendere la relazione esistente tra un modello di resistività, rappresentato in dominio DCT, e il corrispondente data misfit, definito come norma L2 della differenza tra dato predetto ed osservato. Utilizzando una rete in grado di apprendere questo mapping, è possibile evitare il passaggio di forward modeling e diminuire lo sforzo computazionale richiesto dall’inversione.
Perciò questo lavoro si è occupato, in primo luogo, di ottenere indicazioni sulle capacità di alcuni tipi di NN di approssimare funzioni analitiche con caratteristiche simili a quelle delle funzioni di misfit tipiche di problemi geofisici. Successivamente è stato verificato che un metodo di ricerca globale come i GA riuscisse a convergere in un’inversione ERT eseguita in dominio DCT. Quindi, è stata implementata la procedura (GA+NN) che prevede la sostituzione del forward modeling con il CNN all’interno dell’inversione. La procedura è stata testata su un modello sintetico di sottosuolo, assunto come modello vero, a partire dal quale è stato costruito il dataset con cui addestrare la rete, composto da modelli in dominio DCT e corrispondenti data misfit. In un primo test si è cercato di mettere nelle migliori condizioni possibili la rete includendo nel dataset di training modelli con data misfit molto basso, addestrandola così il più possibile nelle porzioni dello spazio delle soluzioni nelle quali avrebbe dovuto effettuare predizioni nel corso dell’inversione: questo ha permesso di verificare il corretto funzionamento della procedura. In un secondo test non sono stati inseriti nel dataset di training modelli a basso misfit, per cui è stata messa alla prova la capacità del CNN di svolgere il proprio compito, pur non essendo addestrato in alcune regioni dello spazio delle soluzioni. Infine, si è osservato come influisse sull’esito dell’inversione l’utilizzo di un modello sintetico contenente una brusca discontinuità nei valori di resistività e con caratteristiche statistiche differenti da quelle dei modelli utilizzati per il training. Il confronto tra la procedura standard (GA) e il metodo GA+NN ha mostrato come questo non solo è in grado di convergere ad un risultato plausibile, ma anche di offrire una diminuzione dei tempi di calcolo richiesti e di essere stabile nonostante l’aggiunta di noise ai dati.
La ERT è un problema inverso non lineare e mal condizionato, solitamente affrontato con metodi deterministici in cui la direzione di ricerca è definita dal gradiente della funzione da minimizzare. Le incognite da determinare sono i valori di resistività corrispondenti alle varie celle in cui il sottosuolo è discretizzato. È stato deciso di affrontare il problema con un metodo di ottimizzazione globale, gli algoritmi genetici (GA): questi permettono di esplorare lo spazio dei modelli seguendo un procedimento fatto di selezione, ricombinazione e mutazione che si ispira ai processi di selezione naturale. Il vantaggio offerto da un metodo globale come i GA è quello di ridurre il rischio di convergenza a minimi locali della funzione errore. Esistono, però, due aspetti che rendono l’inversione di dati ERT un problema complesso da affrontare con algoritmi di ricerca globali: da un lato l’alta dimensione dello spazio dei parametri, quindi un grande numero di incognite da ottimizzare (il costo computazionale di un’inversione globale aumenta esponenzialmente col numero delle incognite), dall’altro un forward modeling computazionalmente costoso. Per mitigare il primo problema esistono varie tecniche di riparametrizzazione del modello. In questo caso è stata utilizzata la Discrete Cosine Transform (DCT), una trasformata che permette di esprimere un segnale finito come somma di funzioni base cosinusoidali pesate da opportuni coefficienti: sono proprio tali coefficienti a diventare le incognite del problema inverso. Una proprietà importante della DCT è quella di concentrare la maggior parte dell’energia del segnale di partenza nei coefficienti di basso ordine: è sufficiente, perciò, considerare solamente un ridotto numero di coefficienti per descrivere il segnale senza perdere informazioni rilevanti. La DCT consente, così, di ridurre la dimensionalità del problema, diminuendo anche lo sforzo computazionale richiesto per affrontarlo. Le funzioni base che compongono il segnale trasformato sono ortogonali tra loro e questa proprietà permette di assolvere alla richiesta, da parte degli algoritmi di ottimizzazione globale, che le incognite siano indipendenti l’una dall’altra. Invertire direttamente il modello, in questo caso nel dominio delle resistività, sarebbe come tentare di ottimizzare il valore di ciascun parametro indipendentemente dagli altri. Questo, però, non sarebbe corretto, in quanto deve sussistere una correlazione tra parametri del modello spazialmente vicini tra loro. Il secondo ostacolo, quello riguardante il costo computazionale del forward modeling, è il motivo che ha spinto a cercare di sviluppare una nuova procedura basata sull’utilizzo di tecniche di machine learning. Queste si basano sulla creazione di modelli di calcolo detti reti neurali (NN) e sul loro addestramento (training), attraverso esempi, a risolvere determinati problemi (come riconoscimento e classificazione di immagini, fitting di dati, previsione di eventi futuri, individuazione di pattern nascosti o raggruppamenti nei dati). Il processo di training consiste in un problema di ottimizzazione nel quale si cerca di minimizzare l’errore che la rete compie, nel fare predizioni, rispetto agli output attesi. In questo caso l’obiettivo era la costruzione di una rete neurale in grado di apprendere la relazione esistente tra un modello di resistività, rappresentato in dominio DCT, e il corrispondente data misfit, definito come norma L2 della differenza tra dato predetto ed osservato. Utilizzando una rete in grado di apprendere questo mapping, è possibile evitare il passaggio di forward modeling e diminuire lo sforzo computazionale richiesto dall’inversione.
Perciò questo lavoro si è occupato, in primo luogo, di ottenere indicazioni sulle capacità di alcuni tipi di NN di approssimare funzioni analitiche con caratteristiche simili a quelle delle funzioni di misfit tipiche di problemi geofisici. Successivamente è stato verificato che un metodo di ricerca globale come i GA riuscisse a convergere in un’inversione ERT eseguita in dominio DCT. Quindi, è stata implementata la procedura (GA+NN) che prevede la sostituzione del forward modeling con il CNN all’interno dell’inversione. La procedura è stata testata su un modello sintetico di sottosuolo, assunto come modello vero, a partire dal quale è stato costruito il dataset con cui addestrare la rete, composto da modelli in dominio DCT e corrispondenti data misfit. In un primo test si è cercato di mettere nelle migliori condizioni possibili la rete includendo nel dataset di training modelli con data misfit molto basso, addestrandola così il più possibile nelle porzioni dello spazio delle soluzioni nelle quali avrebbe dovuto effettuare predizioni nel corso dell’inversione: questo ha permesso di verificare il corretto funzionamento della procedura. In un secondo test non sono stati inseriti nel dataset di training modelli a basso misfit, per cui è stata messa alla prova la capacità del CNN di svolgere il proprio compito, pur non essendo addestrato in alcune regioni dello spazio delle soluzioni. Infine, si è osservato come influisse sull’esito dell’inversione l’utilizzo di un modello sintetico contenente una brusca discontinuità nei valori di resistività e con caratteristiche statistiche differenti da quelle dei modelli utilizzati per il training. Il confronto tra la procedura standard (GA) e il metodo GA+NN ha mostrato come questo non solo è in grado di convergere ad un risultato plausibile, ma anche di offrire una diminuzione dei tempi di calcolo richiesti e di essere stabile nonostante l’aggiunta di noise ai dati.
File
Nome file | Dimensione |
---|---|
Tesi_Mac...Fabio.pdf | 4.90 Mb |
Contatta l’autore |