Tesi etd-05202019-221934

Tipo di tesi

Tesi di laurea magistrale

Autore

CARNIANI, DAVIDE

URN

etd-05202019-221934

Titolo

Confronto algoritmi di Machine Learning per classificazione di litho-fluidfacies da dati sismici a riflessione

Dipartimento

SCIENZE DELLA TERRA

Corso di studi

GEOFISICA DI ESPLORAZIONE E APPLICATA

Relatori

relatore Prof. Mazzotti, Alfredo
relatore Aleardi, Mattia
controrelatore Virgilio, Michele

Parole chiave

machine learning
problemi inversi
sismica a riflessione
classificazione facies

Data inizio appello

07/06/2019

Consultabilità

Non consultabile

Data di rilascio

07/06/2089

Riassunto

L'obiettivo di questo lavoro di tesi è quello di testare diversi algoritmi di Machine Learning (ML) nell'identificazione delle litho-fluidfacies da dati di pozzo e di sismica a riflessione. Gli algoritmi sono stati allenati sui valori dei parametri elastici di cinque log di pozzo acquisiti in una determinata area di studio, ed è stata verificata la loro applicabilità su dati sismici sintetici e reali. I parametri elastici ricavati dai log e usati per allenare gli algoritmi sono: la velocità delle onde compressionali Vp, la velocità delle onde di taglio Vs e la densità. Gli algoritmi testati in questo lavoro di tesi sono cinque: Neural Network, Logistic Regression, Support Vector Classifier, K Nearest Neighbors e Random Forest. Facendo l'assunzione che esista una funzione che lega i parametri elastici con le litho-fluidfacies, gli algoritmi di ML cercano di riprodurre questa funzione; Logistic Regression e Support Vector Classifier la approssimano con una funzione lineare, mentre i restanti algoritmi sono in grado di approssimarla con una non lineare. Il lavoro di tesi inizia con la definizione delle litho-fluidfacies a partire dai valori delle proprietà petrofisiche contenute nei well-log, ovvero la porosità phi, la saturazione in acqua Sw e l'argillosità Sh. I campioni dei log con valori di phi uguali o inferiori a 0.1 e con valori di Sh maggiori o uguali di 0.5 saranno assegnati alla classe delle Shale, tutti i restanti saranno definiti in base a Sw: per valori di Sw minori o uguali di 0.5 i campioni apparterranno alla classe delle Gas Sands, altrimenti saranno classificati come Brine Sands.

Una volta che ogni campione dei log è stato assegnato a una classe si sono condotte tre indagini preliminari. La prima di esse mira a studiare in che modo variazioni sui parametri elastici influenzino la classificazione delle litho-fluidfacies. La seconda indagine si concentra sull'effetto della normalizzazione dei dati sul training degli algoritmi. In questo caso sono stati aggiunti nella fase di training degli algoritmi 6 parametri costituiti da valori random con distribuzione Gaussiana, ed è stata valutata l'importanza relativa di tutti i parametri nella classificazione sia prima che dopo la normalizzazione dei dati. Infine la terza indagine studia l'impatto degli iper-parametri degli algoritmi sulle funzioni di classificazione che essi restituiscono. Gli iper-parametri sono quei valori che un algoritmo richiede come input per poter effettuare il training.
Nella seconda parte del lavoro di tesi i dati di quattro log di pozzo saranno divisi in due set differenti detti Training Set e Test Set. Il primo set è stato utilizzato per allenare gli algoritmi di ML utilizzando una tecnica chiamata K-fold-Cross Validation. Questo metodo consiste nel dividere il Training Set in K parti contenenti lo stesso numero di campioni, chiamate cartelle. A turno ciascuna di queste cartelle viene usata per validare il modello di ML prodotto dall'allenamento sulle altre K-1 cartelle. La media delle performances di un modello di ML sulle K cartelle produce un valore più robusto rispetto a un'unica prova, e questo valore può essere confrontato con quello ricavato da differenti modelli per effettuare una comparazione. Come performance degli algoritmi si valuta la media delle predizioni corrette su ogni classe, chiamata Balanced Accuracy. Durante questo procedimento è stato inoltre eseguito il tuning, ovvero la scelta degli iper-parametri degli algoritmi, con una tecnica chiamata Grid-Search. Il Grid-Search consiste nel testare su ogni cartella lo stesso algoritmo più volte, variando gli iper-parametri con cui si effettua il training e selezionando quelli che restituiscono un miglior valore delle performance sulla media di ogni cartella. Al termine della Cross-validation e del Grid-Search il modello di ML con il più alto valore di Balanced Accuracy è stato utilizzato per predire le litho-fluidfacies dei campioni del Test Set e di un pozzo blind tenuto da parte. Il pozzo blind inoltre è stato usato per produrre un sismogramma sintetico, da cui sono state stimate le proprietà elastiche usando un inversione Amplitude Versus Offset(AVO), che sfrutta la dipendenza dei coefficienti di riflessione al variare dell'angolo di incidenza di un raggio sismico con l'interfaccia riflettente. Il miglior modello di ML è stato utilizzato per predire le litho-fluidfacies delle proprietà elastiche ricavate dall'inversione AVO.

Nell'ultima parte del lavoro di tesi è stato ripetuto ancora il processo di selezione del modello di ML facendo uso questa volta dei dati provenienti da tutti e cinque i log di pozzo. Scelto il miglior modello di ML esso è stato utilizzato per predire le litho-fluidfacies di una sezione inline estratta da un volume sismico terrestre. In questo caso, per stimare le proprietà elastiche del dato sismico è stato necessario stimare l'ondina sorgente, la quale è stata utilizzata come input nell'inversione AVO. Per svolgere questo compito sono stati applicati due metodi: stima dell'ondina tramite Singular Value Decomposition(SVD) troncata e tramite autocorrelazione delle tracce sismiche. Tra le varie ondine stimate è stata selezionata quella che ha restituito una stima più credibile.

Dall'analisi svolta sui log nella prima fase del lavoro è emerso che esiste un overlap tra le classi nello spazio delle prorprietà elastiche e che quindi gli algoritmi non saranno mai in grado di predire correttamente il 100% dei campioni. Si è osservato come la normalizzazione giochi un ruolo fondamentale nel corretto allenamento degli algoritmi e che gli iper-parametri di tuning regolano la complessità delle funzioni di classificazione restituite da essi. I vari test sui dati di log dimostreranno che le Brine Sands sono risultate la classe più difficile da identificare soprattutto per i modelli lineari, i quali non essendo in grado di produrre boundary complessi hanno sofferto dell'overlap esistente tra classi. Ad ogni Cross-Validation sono state illustrate e commentate le Confusion Matrices dei modelli insieme ai valori ricavabili da esse. Le classificazioni sul pozzo blind hanno mostrato risultati differenti da quelli del Test Set a causa della differenza nelle funzioni di densità di probabiblità delle proprietà elastiche tra i due set. Il risultato dell'inversione AVO sul sintetico prodotto dal pozzo blind sarà di più difficile classificazione rispetto al pozzo blind originale, a causa della perdita di risoluzione nello spazio dei prametri elastici causata dall'effetto filtro dell'ondina sorgente. Durante tutte le prove svolte il rank dei migliori algoritmi non è variato, suggerendo una consistenza dei risultati: il miglior modello di ML stimato dalla Cross Validation è stato sempre KNN. Per quanto riguarda l'inversione del dato reale, nonostante il basso rapporto segnale rumore che lo caratterizza, il miglior modello di ML è stato comunque in grado di predire con buona affidabilità i livelli di interesse saturi a gas.

File

Nome file	Dimensione
Tesi non consultabile. Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-05202019-221934