Analyzing training dynamics of deep neural networks: insights and limitations of the neural tangent kernel regime

www.lmu.de | UB | Blättern | FAQ

Zur erweiterten Suche

English

Zur erweiterten Suche

The widespread use of Deep Neural Networks (DNNs) in various application has underscored their effectiveness, yet the fundamental principles behind their success largely remain elusive. Despite being highly overparametrized, DNNs often exhibit effective generalization, defying predictions of classical statistical learning theory. Moreover, theoretical analysis of DNNs' training falls outside of the scope of classical convex optimization theory, since DNNs' loss landscapes are highly non-convex. Addressing these challenges requires novel approaches to studying DNNs' training dynamics. The introduction of the Neural Tangent Kernel (NTK) in Jacot et al. (2018) has been a significant step forward in this direction, as it greatly simplified the analysis of DNNs' dynamics in the infinite-width limit, where DNNs enter the so-called NTK regime under certain conditions. This regime has played a pivotal role in recent theoretical analyses of DNNs' generalization and convergence. While the NTK regime allows to completely describe the infinite-width limit of DNNs, it cannot capture all the properties of realistic finite-width DNNs' training dynamics. Thus, the objective of this thesis is to determine possibilities and limitations of the NTK regime for advancing the theory of deep learning. The first part of the thesis, comprising two papers, focuses on the limitations of the NTK regime for the analysis of fully-connected DNNs. Namely, our contributions demonstrate that whether a network is in the NTK regime depends on the hyperparameters of random initialization and the network’s depth-to-width ratio. Our results indicate the importance of the three phases of initialization, identified in Poole et al. (2016): ordered, chaotic, and the edge of chaos (EOC). We derive exact expressions for the NTK dispersion in the infinite-depth-and-width limit in all three phases, and conclude that the NTK variability grows exponentially with depth at the EOC and in the chaotic phase but not in the ordered phase. Additionally, we show that the NTK of deep networks may stay constant during training only in the ordered phase. Our contributions also include large-scale numerical experiments, which fully support the theoretical findings. The second part of the thesis introduces a novel approach to analyze DNNs' training dynamics based on the NTK block-structure assumption. This assumption is motivated by the NTK alignment phenomenon, where the NTK of finite-width DNNs aligns with the target function during training. For classification DNNs, this alignment gives rise to an approximate block-structure in the kernel matrix, where the correlations between samples from the same class are stronger than between samples from different classes. We employ the NTK block-structure assumption to analyze the dynamics of DNNs trained with mean squared (MSE) loss at the end of training. Namely, we derive the dynamics equations, break the dynamics into interpretable phases, and identify a dynamics invariant. Our analysis reveals that a prominent empirical phenomenon called Neural Collapse (NC) occurs in certain fixed points of this dynamics, and provides necessary conditions for convergence to NC. We provide large-scale numerical experiments on three common DNN architectures and three benchmark datasets to support our theory., Tiefe neuronale Netze (TNN) erzielen in unterschiedlichsten Anwendungsbereichen beeindruckende Resultate und dennoch bleibt ihre zugrundeliegende Funktionsweise größtenteils unverstanden. Empirische Beobachtungen wie die gute Generalisierbarkeit stark überparametrisierter Netze stehen im Widerspruch zur klassischen statistischen Lerntheorie. Das Training der Netzwerke kann aufgrund ihrer stark nicht-konvexen Verlustlandschaft nicht mit klassischer konvexer Optimierung erklärt werden. Das Verständnis dieser Phänomene erfordert die Entwicklung ganz neuer theoretischer Ansätze, und die Einführung des Neural Tangent Kernels (NTK) in Jacot et al. (2018) erwies sich als ein signifikanter erster Schritt in diese Richtung. Diese Methode analysiert die Netzdynamiken im sogenannten"infinite-width limit" (Netzwerke mit unendlicher Breite). Unter bestimmten Annahmen befinden sich diese Netzwerke dann im sogenannten "NTK-Regime", das eine wichtige Rolle bei der theoretischen Analyse der Netzwerk-Generalisierbarkeit und Konvergenz spielt. Zwar ermöglicht das NTK-Regime eine komplette Charakterisierung von Netzwerken mit unendlicher Breite, die Analyse lässt sich jedoch nicht direkt auf Netzwerke mit endlicher Breite übertragen. Ziel dieser Doktorarbeit ist es, die Möglichkeiten und Grenzen des NTK-Regimes für die Weiterentwicklung der Theorie des Deep Learning genauer zu beleuchten. Der erste Teil der Arbeit zeigt basierend auf zwei Artikeln, dass es von den Hyperparametern der zufälligen Initialisierung und dem Tiefe-zu-Breite-Verhältnis abhängt, ob sich ein vollverbundenes Netzwerk im NTK-Regime befindet. Hierbei wird die Bedeutung der Drei-Phasen-Initialisierung (erstmals erkannt von Poole et al. (2016)) -- "ordered", "chaotic", und "edge of chaos (EOC)" -- genauer analysiert. Eine konkrete Charakterisierung der NTK Streuung im "infinite-depth-and-width limit" (Netzwerke mit unendlicher Tiefe und Breite) wird in allen drei Phasen aufgezeigt. Die Ergebnisse belegen ein exponentielles Wachstum der NTK-Streuung mit der Netzwerktiefe in der EOC und der chaotischen Phase, jedoch nicht in der geordneten Phase. Zusätzlich zeigen wir, dass der NTK der tiefen Netzwerke während des Trainings nur in der geordneten Phase konstant bleibt. Die theoretisch erzielten Ergebnisse werden mit einer umfangreichen Simulationsstudie belegt. Der zweite Teil der Arbeit beschäftigt sich mit einem neuen Ansatz zur Analyse der Netzwerkdynamiken, der auf der NTK-Blockstruktur-Annahme beruht. Diese Annahme motiviert sich aus dem "NTK-Alignment"-Phänomen, in dem sich der NTK von Netzwerken mit endlicher Breite während des Trainings an die Zielfunktion anpasst. In der Klassifikation mit TNN führt dies zu einer Blockstruktur in der Kernel-Matrix, bei der die Korrelationen zwischen Datenpunkten derselben Klasse stärker sind als zwischen Datenpunkten verschiedener Klassen. Durch die Annahme der NTK-Blockstruktur analysieren wir am Ende des Trainings die Dynamik von TNN, die mit dem mittleren quadratischen Fehler trainiert werden. Wir leiten die Dynamikgleichungen her, zerlegen sie in interpretierbare Phasen und identifizieren eine Dynamikinvariante. Unsere Analysen zeigen, dass das aus empirischen Studien bekannte Phänomen des "Neural Collapse (NC)'' an speziellen Punkten in der Dynamik auftritt. Zudem beleuchten wir die erforderlichen Annahmen für die Konvergenz zum NC. Eine große Simulationsstudie belegt unsere theoretischen Erkenntnisse.

Not available

Seleznova, Mariia

07. Nov. 2024

2024

Englisch

Universitätsbibliothek der Ludwig-Maximilians-Universität München

https://nbn-resolving.org/urn:nbn:de:bvb:19-343956

Seleznova, Mariia (2024): Analyzing training dynamics of deep neural networks: insights and limitations of the neural tangent kernel regime. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik

Vorschau

PDF
Seleznova_Mariia.pdf
13MB

DOI: 10.5282/edoc.34395

URN: urn:nbn:de:bvb:19-343956

Abstract

Tiefe neuronale Netze (TNN) erzielen in unterschiedlichsten Anwendungsbereichen beeindruckende Resultate und dennoch bleibt ihre zugrundeliegende Funktionsweise größtenteils unverstanden. Empirische Beobachtungen wie die gute Generalisierbarkeit stark überparametrisierter Netze stehen im Widerspruch zur klassischen statistischen Lerntheorie. Das Training der Netzwerke kann aufgrund ihrer stark nicht-konvexen Verlustlandschaft nicht mit klassischer konvexer Optimierung erklärt werden. Das Verständnis dieser Phänomene erfordert die Entwicklung ganz neuer theoretischer Ansätze, und die Einführung des Neural Tangent Kernels (NTK) in Jacot et al. (2018) erwies sich als ein signifikanter erster Schritt in diese Richtung. Diese Methode analysiert die Netzdynamiken im sogenannten"infinite-width limit" (Netzwerke mit unendlicher Breite). Unter bestimmten Annahmen befinden sich diese Netzwerke dann im sogenannten "NTK-Regime", das eine wichtige Rolle bei der theoretischen Analyse der Netzwerk-Generalisierbarkeit und Konvergenz spielt. Zwar ermöglicht das NTK-Regime eine komplette Charakterisierung von Netzwerken mit unendlicher Breite, die Analyse lässt sich jedoch nicht direkt auf Netzwerke mit endlicher Breite übertragen. Ziel dieser Doktorarbeit ist es, die Möglichkeiten und Grenzen des NTK-Regimes für die Weiterentwicklung der Theorie des Deep Learning genauer zu beleuchten. Der erste Teil der Arbeit zeigt basierend auf zwei Artikeln, dass es von den Hyperparametern der zufälligen Initialisierung und dem Tiefe-zu-Breite-Verhältnis abhängt, ob sich ein vollverbundenes Netzwerk im NTK-Regime befindet. Hierbei wird die Bedeutung der Drei-Phasen-Initialisierung (erstmals erkannt von Poole et al. (2016)) -- "ordered", "chaotic", und "edge of chaos (EOC)" -- genauer analysiert. Eine konkrete Charakterisierung der NTK Streuung im "infinite-depth-and-width limit" (Netzwerke mit unendlicher Tiefe und Breite) wird in allen drei Phasen aufgezeigt. Die Ergebnisse belegen ein exponentielles Wachstum der NTK-Streuung mit der Netzwerktiefe in der EOC und der chaotischen Phase, jedoch nicht in der geordneten Phase. Zusätzlich zeigen wir, dass der NTK der tiefen Netzwerke während des Trainings nur in der geordneten Phase konstant bleibt. Die theoretisch erzielten Ergebnisse werden mit einer umfangreichen Simulationsstudie belegt. Der zweite Teil der Arbeit beschäftigt sich mit einem neuen Ansatz zur Analyse der Netzwerkdynamiken, der auf der NTK-Blockstruktur-Annahme beruht. Diese Annahme motiviert sich aus dem "NTK-Alignment"-Phänomen, in dem sich der NTK von Netzwerken mit endlicher Breite während des Trainings an die Zielfunktion anpasst. In der Klassifikation mit TNN führt dies zu einer Blockstruktur in der Kernel-Matrix, bei der die Korrelationen zwischen Datenpunkten derselben Klasse stärker sind als zwischen Datenpunkten verschiedener Klassen. Durch die Annahme der NTK-Blockstruktur analysieren wir am Ende des Trainings die Dynamik von TNN, die mit dem mittleren quadratischen Fehler trainiert werden. Wir leiten die Dynamikgleichungen her, zerlegen sie in interpretierbare Phasen und identifizieren eine Dynamikinvariante. Unsere Analysen zeigen, dass das aus empirischen Studien bekannte Phänomen des "Neural Collapse (NC)'' an speziellen Punkten in der Dynamik auftritt. Zudem beleuchten wir die erforderlichen Annahmen für die Konvergenz zum NC. Eine große Simulationsstudie belegt unsere theoretischen Erkenntnisse.

Dokumententyp:	Dissertationen (Dissertation, LMU München)
Themengebiete:	500 Naturwissenschaften und Mathematik 500 Naturwissenschaften und Mathematik > 510 Mathematik
Fakultäten:	Fakultät für Mathematik, Informatik und Statistik
Sprache der Hochschulschrift:	Englisch
Datum der mündlichen Prüfung:	7. November 2024
1. Berichterstatter:in:	Kutyniok, Gitta
MD5 Prüfsumme der PDF-Datei:	5b5fee6b4210ea1e8c115d0833cfb990
Signatur der gedruckten Ausgabe:	0001/UMC 30806
ID Code:	34395
Eingestellt am:	15. Nov. 2024 14:40
Letzte Änderungen:	22. Jan. 2025 15:06

Nur für Administratoren und Editoren: Dokument bearbeiten