Tesi etd-10112022-194433

Tipo di tesi

Tesi di laurea magistrale

Autore

D'ONOFRIO, VITTORIO

URN

etd-10112022-194433

Titolo

Kernel convergence theorems and Graph Neural Networks in the infinite width limit

Dipartimento

MATEMATICA

Corso di studi

MATEMATICA

Relatori

relatore Prof. Trevisan, Dario
controrelatore Dott. Grotto, Francesco

Parole chiave

Gaussian process
graph neural network
graph neural tangent kernel
neural network
neural tangent kernel

Data inizio appello

28/10/2022

Consultabilità

Completa

Riassunto

In questo lavoro vengono analizzati aspetti riguardanti Neural Networks (NNs) e Graph Neural Networks (GNNs) di ampiezza infinita.
Questo studio è motivato da alcuni risultati che stabiliscono l'equivalenza tra processi Gaussiani e reti neurali completamente connesse di ampiezza infinita all'inizializzazione.
Quindi, si può utilizzare la funzione di covarianza del processo Gaussiano corrispondente a una rete neurale infinitamente ampia per fare previsioni e inferenza. Dunque, questo fatto collega la teoria delle reti neurali ai metodi kernel.
Durante il training di una rete neurale, la funzione output segue un'equazione differenziale ordinaria finito-dimensionale scritta in termini di un nuovo nucleo: il Neural Tangent Kernel (NTK).
Viene quindi studiata la convergenza del NTK, in particolare si dimostra che, per un'opportuna scelta dei parametri all'inizializzazione, il Neural Tangent Kernel converge in probabilità ad un nucleo deterministico quando l'ampiezza dei layer nascosti tende ad infinito sequenzialmente. Il risultato di convergenza vale sia all'inizializzazione sia durante il training.
Come conseguenza, nel caso di ampiezza infinita, la funzione output varia durante il training seguendo un'equazione differenziale in cui compare il nucleo limite.
Inoltre, il nucleo limite soddisfa una relazione per ricorrenza in cui è coinvolta la funzione di covarianza del processo Gaussiano corrispondente a una rete neurale infinitamente ampia.
Nel lavoro di tesi si studia il comportamento della funzione output anche nel caso di una Graph Neural Network.
Si può costruire una GNN tramite operazioni di somma sui vicini e aggiornamento dei feature vectors associati a ogni nodo; quest'ultima si realizza con una rete neurale completamente connessa.
In questo lavoro si dimostra che anche nel caso di una GNN, all'inizializzazione, la funzione output converge in legge ad un processo Gaussiano quando l'ampiezza dei layer intermedi tende ad infinito sequenzialmente.
Si può quindi definire un analogo del nucleo limite del NTK anche nel contesto delle Graph Neural Networks, collegando in questo caso la teoria delle Graph Neural Networks ai metodi kernel.

File

Nome file	Dimensione
tesimagistrale.pdf	525.12 Kb
Contatta l’autore

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10112022-194433