ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03272026-142105

Tipo di tesi

Tesi di dottorato di ricerca

URN

etd-03272026-142105

Titolo

Overlapping gravitational-wave signals in next-generation detectors: a deep-learning approach with Transformers and Normalizing Flows

Settore scientifico disciplinare

FIS/01 - FISICA SPERIMENTALE

Corso di studi

FISICA

Parole chiave

deep learning
Einstein Telescope
gravitational waves
Normalizing Flows
onde gravitazionali
overlapping signals
simulation-based inference
timeseries
Transformers

Data inizio appello

30/03/2026

Consultabilità

Non consultabile

Data di rilascio

30/03/2029

Riassunto (Inglese)

The next generation of gravitational-wave observatories will operate in a regime where overlapping signals become inevitably common. For third-generation detectors such as the Einstein Telescope, this includes the simultaneous observation of multiple compact-binary coalescences occurring within the same time and frequency bands. In this scenario, the strain measured by the detectors will contain a continuous mixture of signals, making the statistical inference of source parameters significantly more complex than in the single-event regime explored so far in gravitational wave science. Addressing this problem requires new methodologies capable of extracting physical information directly from dense and correlated data streams.

This thesis presents a deep-learning framework for the analysis of overlapping gravitational-wave signals, specifically binary black holes.
Its core combines a newly developed Transformer encoder, KENN, specifically designed in the context of this work, with a Normalizing Flow head, HYPERION, integrated to form an end-to-end architecture that performs likelihood-free inference on multichannel strain data.
Transformers are used here to capture long-range temporal correlations across detectors and extract the relevant information from the strain time-serie, while Normalizing Flows provide a representation of the full posterior distribution.

The training is supported by a dedicated dataset generator, developed as part of this thesis, which simulates gravitational-wave signals and detector noise dynamically during learning. This design removes the need for precomputed datasets, allows the continuous creation of new examples, and effectively prevents overfitting by exposing the network to an ever-changing distribution of inputs. Beyond its technical role, the generator constitutes an independent contribution of this work, offering a modular and reusable infrastructure for the simulation of realistic data from different detectors and source populations.

The proposed model was applied to the simultaneous inference of three overlapping binary black hole mergers in Einstein Telescope–like data. It successfully recovered the intrinsic parameters of each source, achieving typical errors on the chirp mass and coalescence time below 10-20% with stable performance across different overlap configurations and signal-to-noise ratios.
The complete posterior reconstruction, based on 10^4 samples, requires approximately one second on a Dell PowerEdge R7425 machine equipped with a 64-core AMD EPYC CPU and one NVIDIA A30 GPUs. This computational efficiency makes the framework well suited for the large-volume data expected from third-generation detectors.

On top of this foundation, the same deep-learning architecture was extended to two complementary tasks.
The first was a probabilistic classifier for estimating the number of overlapping signals within each data segment. Using the same KENN-HYPERION structure, the network produced discrete posteriors over possible signal counts, achieving high accuracy in distinguishing between noise, single events, and overlapping binaries, although limited to at most two concurrent signals and Gaussian noise.

The second extension tried to address the problem of source localization. Here, the architecture was applied to the inference of sky coordinates, and the task remained challenging despite extensive training and tuning.
Localization is achieved only in the simplest configuration, corresponding to training with fixed intrinsic parameters. Controlled tests suggest that performance is affected by model expressivity constraints, but no single dominant cause was isolated.
A dedicated investigation led to the introduction of a new embedding for the Transformer architecture (the channel embedding, which mitigated information loss and improved the overall stability of the model, although full localization remained beyond reach.
These analyses clarified both the limitations and the potential of the proposed approach, outlining the path toward future improvements based on more expressive inference models and deeper attention-based architectures. Such developments, however, will require significantly more powerful hardware resources.

The work presented in this thesis constitutes one of the first systematic applications of Transformer architectures to gravitational-wave data analysis and the first successful and non-biased attempt to perform a multiple parameter estimation of overlapped signals. It demonstrates that attention-based models can learn a physically meaningful representation of detector data and combined with Normalizing Flows it can deliver fast, reliable inference in complex multi-signal scenarios.
These findings establish the basis for future likelihood-free, data-driven analysis frameworks that will be essential for operating in the environment of third-generation detectors.

Riassunto (Italiano)

La prossima generazione di osservatori di onde gravitazionali opererà in un regime in cui la sovrapposizione dei segnali diventerà inevitabilmente comune. Per rivelatori di terza generazione come l’Einstein Telescope, ciò include l’osservazione simultanea di molteplici coalescenze di sistemi binari compatti che avvengono nelle stesse bande temporali e di frequenza. In questo scenario, lo strain misurato dai rivelatori conterrà una miscela continua di segnali, rendendo l’inferenza statistica dei parametri delle sorgenti significativamente più complessa rispetto al regime a singolo evento finora esplorato nella scienza delle onde gravitazionali. Affrontare questo problema richiede nuove metodologie capaci di estrarre informazione fisica direttamente da flussi di dati densi e correlati.

Questa tesi presenta un framework di deep learning per l’analisi di segnali di onde gravitazionali sovrapposti, in particolare da sistemi binari di buchi neri.
Il suo nucleo combina un encoder Transformer di nuova concezione, KENN, sviluppato specificamente nel contesto di questo lavoro, con una componente basata su Normalizing Flow, HYPERION, integrati in un’architettura end-to-end in grado di eseguire inferenza likelihood-free su dati di strain multicanale.
I Transformer sono utilizzati per catturare correlazioni temporali a lungo raggio tra i rivelatori ed estrarre l’informazione rilevante dalla serie temporale dello strain, mentre i Normalizing Flow forniscono una rappresentazione della distribuzione a posteriori completa.

L’addestramento è supportato da un generatore di dataset dedicato, sviluppato nell’ambito di questa tesi, che simula dinamicamente segnali di onde gravitazionali e rumore dei rivelatori durante il processo di apprendimento. Questo approccio elimina la necessità di dataset precomputati, consente la creazione continua di nuovi esempi e previene efficacemente l’overfitting esponendo la rete a una distribuzione di input in continuo cambiamento. Oltre al suo ruolo tecnico, il generatore costituisce un contributo indipendente di questo lavoro, offrendo un’infrastruttura modulare e riutilizzabile per la simulazione di dati realistici provenienti da diversi rivelatori e popolazioni di sorgenti.

Il modello proposto è stato applicato all’inferenza simultanea di tre fusioni di buchi neri binari sovrapposte in dati simulati simili a quelli dell’Einstein Telescope. È riuscito a ricostruire i parametri intrinseci di ciascuna sorgente, ottenendo errori tipici sulla massa chirp e sul tempo di coalescenza inferiori al 10–20%, con prestazioni stabili su diverse configurazioni di sovrapposizione e rapporti segnale-rumore.
La ricostruzione completa della distribuzione a posteriori, basata su 10^4 campioni, richiede circa un secondo su una macchina Dell PowerEdge R7425 equipaggiata con una CPU AMD EPYC a 64 core e una GPU NVIDIA A30. Questa efficienza computazionale rende il framework particolarmente adatto ai grandi volumi di dati attesi dai rivelatori di terza generazione.

Su questa base, la stessa architettura di deep learning è stata estesa a due compiti complementari.
Il primo riguarda un classificatore probabilistico per stimare il numero di segnali sovrapposti all’interno di ciascun segmento di dati. Utilizzando la stessa struttura KENN–HYPERION, la rete ha prodotto distribuzioni a posteriori discrete sul numero possibile di segnali, raggiungendo un’elevata accuratezza nel distinguere tra rumore, eventi singoli e binarie sovrapposte, sebbene limitata a un massimo di due segnali simultanei e a rumore gaussiano.

La seconda estensione ha cercato di affrontare il problema della localizzazione delle sorgenti. In questo caso, l’architettura è stata applicata all’inferenza delle coordinate celesti, e il compito si è rivelato complesso nonostante un ampio addestramento e un’attenta ottimizzazione.
La localizzazione è stata raggiunta solo nella configurazione più semplice, corrispondente all’addestramento con parametri intrinseci fissati. Test controllati suggeriscono che le prestazioni siano influenzate da limiti nell’espressività del modello, ma non è stata individuata una singola causa dominante.
Un’analisi dedicata ha portato all’introduzione di un nuovo tipo di embedding per l’architettura Transformer (il cosiddetto “channel embedding”), che ha ridotto la perdita di informazione e migliorato la stabilità complessiva del modello, sebbene una localizzazione completa resti fuori portata.
Queste analisi hanno chiarito sia i limiti sia il potenziale dell’approccio proposto, delineando il percorso verso futuri miglioramenti basati su modelli di inferenza più espressivi e architetture di attenzione più profonde. Tali sviluppi richiederanno tuttavia risorse hardware significativamente più potenti.

Il lavoro presentato in questa tesi costituisce una delle prime applicazioni sistematiche delle architetture Transformer all’analisi dei dati di onde gravitazionali e il primo tentativo riuscito e non distorto di eseguire una stima multipla dei parametri in presenza di segnali sovrapposti. Dimostra che i modelli basati su meccanismi di attenzione possono apprendere una rappresentazione fisicamente significativa dei dati dei rivelatori e, se combinati con i Normalizing Flow, possono fornire un’inferenza rapida e affidabile in scenari complessi con più segnali.
Questi risultati pongono le basi per futuri framework di analisi data-driven e likelihood-free, che saranno essenziali per operare nel contesto dei rivelatori di terza generazione.

File

Nome file	Dimensione
La tesi non è consultabile. Contatta l’autore