logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10112022-194433


Tipo di tesi
Tesi di laurea magistrale
Autore
D'ONOFRIO, VITTORIO
URN
etd-10112022-194433
Titolo
Kernel convergence theorems and Graph Neural Networks in the infinite width limit
Dipartimento
MATEMATICA
Corso di studi
MATEMATICA
Relatori
relatore Prof. Trevisan, Dario
controrelatore Dott. Grotto, Francesco
Parole chiave
  • Gaussian process
  • graph neural network
  • graph neural tangent kernel
  • neural network
  • neural tangent kernel
Data inizio appello
28/10/2022
Consultabilità
Completa
Riassunto
In questo lavoro vengono analizzati aspetti riguardanti Neural Networks (NNs) e Graph Neural Networks (GNNs) di ampiezza infinita.
Questo studio è motivato da alcuni risultati che stabiliscono l'equivalenza tra processi Gaussiani e reti neurali completamente connesse di ampiezza infinita all'inizializzazione.
Quindi, si può utilizzare la funzione di covarianza del processo Gaussiano corrispondente a una rete neurale infinitamente ampia per fare previsioni e inferenza. Dunque, questo fatto collega la teoria delle reti neurali ai metodi kernel.
Durante il training di una rete neurale, la funzione output segue un'equazione differenziale ordinaria finito-dimensionale scritta in termini di un nuovo nucleo: il Neural Tangent Kernel (NTK).
Viene quindi studiata la convergenza del NTK, in particolare si dimostra che, per un'opportuna scelta dei parametri all'inizializzazione, il Neural Tangent Kernel converge in probabilità ad un nucleo deterministico quando l'ampiezza dei layer nascosti tende ad infinito sequenzialmente. Il risultato di convergenza vale sia all'inizializzazione sia durante il training.
Come conseguenza, nel caso di ampiezza infinita, la funzione output varia durante il training seguendo un'equazione differenziale in cui compare il nucleo limite.
Inoltre, il nucleo limite soddisfa una relazione per ricorrenza in cui è coinvolta la funzione di covarianza del processo Gaussiano corrispondente a una rete neurale infinitamente ampia.
Nel lavoro di tesi si studia il comportamento della funzione output anche nel caso di una Graph Neural Network.
Si può costruire una GNN tramite operazioni di somma sui vicini e aggiornamento dei feature vectors associati a ogni nodo; quest'ultima si realizza con una rete neurale completamente connessa.
In questo lavoro si dimostra che anche nel caso di una GNN, all'inizializzazione, la funzione output converge in legge ad un processo Gaussiano quando l'ampiezza dei layer intermedi tende ad infinito sequenzialmente.
Si può quindi definire un analogo del nucleo limite del NTK anche nel contesto delle Graph Neural Networks, collegando in questo caso la teoria delle Graph Neural Networks ai metodi kernel.
File