Thesis etd-11222017-104123 |
Link copiato negli appunti
Thesis type
Tesi di laurea magistrale
Author
MARTINO, FABIO
URN
etd-11222017-104123
Thesis title
Applicazione di algoritmi di machine learning alla classificazione di sorgenti gamma rivelate dall'osservatorio Fermi
Department
FISICA
Course of study
FISICA
Supervisors
relatore Razzano, Massimiliano
Keywords
- Fermi-LAT
- machine learning
Graduation session start date
11/12/2017
Availability
Withheld
Release date
11/12/2087
Summary
L’astrofisica gamma permette di studiare le sorgenti e i fenomeni più energetici dell’Universo, tra cui Gamma-ray Burst, nuclei galattici attivi, resti di supernova, pulsar. L’osservatorio Fermi, lanciato nel 2008, ha rivoluzionato l’astrofisica gamma ad alte energie. Il principale strumento a bordo di Fermi è il Large Area Telescope (LAT), un telescopio a conversione di coppia capace di rivelare fotoni di energia superiore a 20 MeV.
Una delle principali questioni aperte dell’astrofisica gamma è lo studio delle sorgenti non identificate, cioè quelle per cui non è stata trovata in modo non ambiguo una controparte alle altre lunghezze d’onda. Nel terzo catalogo delle sorgenti gamma rivelate da Fermi-LAT (3FGL), sono state raccolte 3033 sorgenti rivelate da questo osservatorio, di cui circa il 30% non sono identificate. La risoluzione angolare del LAT, infatti, è limitata dallo scattering multiplo a basse energie e dal numero di microstrip del tracciatore ad alte energie ed è circa di 3° a 100 MeV e di circa 1° a 1 GeV (angolo di contenimento del 68% della Point Spread Function), maggiore di quella dei telescopi nella banda X o ottica. Ciò significa che, all’interno della regione di incertezza sulla posizione di una sorgente gamma, solitamente possono esserci tante potenziali controparti alle altre lunghezze d’onda ed è quindi difficile fare associazioni basate sulla sola correlazione spaziale.
In assenza di variabilità o periodicità temporale, fondamentali per stabilire un’identificazione non ambigua, per trovare la controparte a partire dalla correlazione spaziale è necessario realizzare osservazioni più approfondite delle potenziali controparti nel caso dell’identificazione di varie classi di nuclei galattici attivi, ad esempio per produrre uno spettro in banda ottica. Questa procedura, se estesa a tutti gli oggetti gamma non identificati, richiede risorse e tempo osservativo ai telescopi, a cui si accede solitamente tramite proposal.
È utile allora usare tecniche di apprendimento automatico o machine learning, per fornire una classificazione in ordine di importanza (ranking), in modo da evidenziare quelle promettenti e ottimizzare eventuali osservazioni ad altre lunghezze d’onda. Gli algoritmi di machine learning sono in grado di individuare, nei dati, relazioni, dipendenze con cui costruire modelli per fare previsioni su altri dati; in questo modo è possibile trattare grandi moli di informazioni, infatti i metodi di machine learning sono molto utili nelle analisi di Big Data.
In questo lavoro di tesi ho applicato tecniche di machine learning alla classificazione di sorgenti non identificate nel catalogo 3FGL, con particolare attenzione ai blazar, sorgenti gamma extragalattiche che formano la popolazione più numerosa nel catalogo 3FGL. I blazar sono una classe di nuclei galattici attivi molto interessanti, dotati di emissione a più lunghezze d’onda, grande variabilità ed emissione molto polarizzata.
Gli algoritmi utilizzati sono stati sviluppati in Python, linguaggio molto utilizzato nell’analisi dei Big Data. Nell’astrofisica gamma, solamente negli ultimi anni si è cominciato a usare tecniche di machine learning (Saz Parkinson et al., ApJ 820: 8, 2016; G. Chiaro et al., MNRAS 462, 3180-3195, 2016).
Per prima cosa ho sviluppato un modello di classificazione, tramite l’algoritmo XGBoost, basato su un nuovo metodo derivato dagli algoritmi di Random Forest molto usati in fisica, che crea un modello per classificare le sorgenti non identificate a partire da pulsar e blazar, le classi più popolose del catalogo 3FGL. Questo algoritmo è stato validato confrontando i risultati con quelli dell’articolo di Saz Parkinson et al., ApJ 820: 8, 2016, uno dei più recenti lavori di machine learning della Collaborazione Fermi-LAT.
L’algoritmo è stato poi adattato alla classificazione dei blazar, suddivisi nel catalogo 3FGL in BL Lacertae (BLL), Flat Spectrum Radio Quasar (FSRQ) e Blazar Candidate of Uncertain type (BCU), cioè blazar di tipo incerto. FSRQ e BLL mostrano caratteristiche osservative differenti in particolare legate allo spettro.
Oltre alla classificazione delle sorgenti non identificate e dei blazar, ho cercato gli outlier, cioè sorgenti con caratteristiche che più si discostano da quelle di AGN e pulsar. Nel caso delle sorgenti non identificate si tratta, quindi, di sorgenti che differiscono da AGN e pulsar, mentre nel caso dei blazar gli outlier sono sorgenti che si differenziano da BLL e FSRQ. L’insieme dei BCU è di particolare interesse, non solo perché contiene blazar ancora da classificare, ma perché al suo interno potrebbero nascondersi outlier: oggetti che non sono né BLL né FSRQ e che potrebbero appartenere a una nuova classe di sorgenti gamma. Lo scopo, quindi, è indicare quei blazar con caratteristiche peculiari e più interessanti da osservare, per esempio con telescopi ottici.
Il risultato di questo lavoro è una classificazione aggiornata delle sorgenti non identificate e dei candidati blazar, con particolare attenzione agli outlier. Gli outlier più significativi sono stati discussi alla luce delle osservazioni multifrequenza attuali, in modo da identificare quelli più promettenti per future osservazioni.
Una delle principali questioni aperte dell’astrofisica gamma è lo studio delle sorgenti non identificate, cioè quelle per cui non è stata trovata in modo non ambiguo una controparte alle altre lunghezze d’onda. Nel terzo catalogo delle sorgenti gamma rivelate da Fermi-LAT (3FGL), sono state raccolte 3033 sorgenti rivelate da questo osservatorio, di cui circa il 30% non sono identificate. La risoluzione angolare del LAT, infatti, è limitata dallo scattering multiplo a basse energie e dal numero di microstrip del tracciatore ad alte energie ed è circa di 3° a 100 MeV e di circa 1° a 1 GeV (angolo di contenimento del 68% della Point Spread Function), maggiore di quella dei telescopi nella banda X o ottica. Ciò significa che, all’interno della regione di incertezza sulla posizione di una sorgente gamma, solitamente possono esserci tante potenziali controparti alle altre lunghezze d’onda ed è quindi difficile fare associazioni basate sulla sola correlazione spaziale.
In assenza di variabilità o periodicità temporale, fondamentali per stabilire un’identificazione non ambigua, per trovare la controparte a partire dalla correlazione spaziale è necessario realizzare osservazioni più approfondite delle potenziali controparti nel caso dell’identificazione di varie classi di nuclei galattici attivi, ad esempio per produrre uno spettro in banda ottica. Questa procedura, se estesa a tutti gli oggetti gamma non identificati, richiede risorse e tempo osservativo ai telescopi, a cui si accede solitamente tramite proposal.
È utile allora usare tecniche di apprendimento automatico o machine learning, per fornire una classificazione in ordine di importanza (ranking), in modo da evidenziare quelle promettenti e ottimizzare eventuali osservazioni ad altre lunghezze d’onda. Gli algoritmi di machine learning sono in grado di individuare, nei dati, relazioni, dipendenze con cui costruire modelli per fare previsioni su altri dati; in questo modo è possibile trattare grandi moli di informazioni, infatti i metodi di machine learning sono molto utili nelle analisi di Big Data.
In questo lavoro di tesi ho applicato tecniche di machine learning alla classificazione di sorgenti non identificate nel catalogo 3FGL, con particolare attenzione ai blazar, sorgenti gamma extragalattiche che formano la popolazione più numerosa nel catalogo 3FGL. I blazar sono una classe di nuclei galattici attivi molto interessanti, dotati di emissione a più lunghezze d’onda, grande variabilità ed emissione molto polarizzata.
Gli algoritmi utilizzati sono stati sviluppati in Python, linguaggio molto utilizzato nell’analisi dei Big Data. Nell’astrofisica gamma, solamente negli ultimi anni si è cominciato a usare tecniche di machine learning (Saz Parkinson et al., ApJ 820: 8, 2016; G. Chiaro et al., MNRAS 462, 3180-3195, 2016).
Per prima cosa ho sviluppato un modello di classificazione, tramite l’algoritmo XGBoost, basato su un nuovo metodo derivato dagli algoritmi di Random Forest molto usati in fisica, che crea un modello per classificare le sorgenti non identificate a partire da pulsar e blazar, le classi più popolose del catalogo 3FGL. Questo algoritmo è stato validato confrontando i risultati con quelli dell’articolo di Saz Parkinson et al., ApJ 820: 8, 2016, uno dei più recenti lavori di machine learning della Collaborazione Fermi-LAT.
L’algoritmo è stato poi adattato alla classificazione dei blazar, suddivisi nel catalogo 3FGL in BL Lacertae (BLL), Flat Spectrum Radio Quasar (FSRQ) e Blazar Candidate of Uncertain type (BCU), cioè blazar di tipo incerto. FSRQ e BLL mostrano caratteristiche osservative differenti in particolare legate allo spettro.
Oltre alla classificazione delle sorgenti non identificate e dei blazar, ho cercato gli outlier, cioè sorgenti con caratteristiche che più si discostano da quelle di AGN e pulsar. Nel caso delle sorgenti non identificate si tratta, quindi, di sorgenti che differiscono da AGN e pulsar, mentre nel caso dei blazar gli outlier sono sorgenti che si differenziano da BLL e FSRQ. L’insieme dei BCU è di particolare interesse, non solo perché contiene blazar ancora da classificare, ma perché al suo interno potrebbero nascondersi outlier: oggetti che non sono né BLL né FSRQ e che potrebbero appartenere a una nuova classe di sorgenti gamma. Lo scopo, quindi, è indicare quei blazar con caratteristiche peculiari e più interessanti da osservare, per esempio con telescopi ottici.
Il risultato di questo lavoro è una classificazione aggiornata delle sorgenti non identificate e dei candidati blazar, con particolare attenzione agli outlier. Gli outlier più significativi sono stati discussi alla luce delle osservazioni multifrequenza attuali, in modo da identificare quelli più promettenti per future osservazioni.
File
Nome file | Dimensione |
---|---|
The thesis is not available. |