Advancing variational inference: semi-implicit models, adaptive proposals, and Functional Stein Gradients

www.lmu.de | UB | Blättern | FAQ

Zur erweiterten Suche

English

Zur erweiterten Suche

Variational inference (VI) is a widely used framework for approximate Bayesian inference, offering computational scalability but often relying on overly simplistic approximations. These limitations reduce the ability of standard VI methods to capture complex posterior distributions. This thesis addresses these challenges by developing methods that improve the expressiveness and stability of VI through function-space optimization, importance sampling, and kernel-based gradient estimation. The first part introduces a functional formulation of VI, Stein Functional Variational Gradient Descent, which directly optimizes distributions over functions using gradients derived from Stein’s identity. This approach enables accurate predictive inference in overparameterized models, such as Bayesian neural networks, where the posterior distribution itself is not very informative due to the large number of parameters and overparameterization. In contrast, the second part of the thesis focuses on improving semi-implicit variational inference (SIVI), where the goal shifts from predictive inference to closely approximating complex posterior densities. A new unbiased training objective for SIVI is introduced, which replaces MCMC-based inner loops with importance sampling from learned proposal distributions. While this yields a tractable and fully differentiable estimator, further improvements are achieved by incorporating kernelized path gradients and a bias-correcting importance sampling correction. The resulting method combines the strengths of proposal learning and nonparametric smoothing, improving both the stability and accuracy of posterior approximation. Together, these contributions offer a unified perspective on advancing variational inference beyond conventional approximations. By integrating functional inference, adaptive proposal mechanisms, and kernel-based estimators, the proposed methods enhance the fidelity and practical utility of Bayesian inference in modern machine learning settings., Die Variationsinferenz (VI) ist ein etabliertes Verfahren der approximativen Bayes’schen Inferenz. Ihr Hauptvorteil liegt in der hohen rechnerischen Skalierbarkeit, doch wird die Genauigkeit von VI-Methoden häufig durch zu restriktive Approximationsannahmen gemindert. Insbesondere werden durch diese Annahmen häufig die Fähigkeit herkömmlicher VI-Methoden, komplexe Posteriorverteilungen adäquat zu erfassen, eingeschränkt. Diese Herausforderungen werden in der vorliegenden Dissertation adressiert, indem Verfahren entwickelt werden, die die Repräsentationsfähigkeit und Stabilität der Variationsinferenz durch Optimierung im Funktionsraum, gewichtete Stichproben zur Varianzreduktion und kernelbasierte Gradientenabschätzung verbessern. Im ersten Teil der Arbeit wird eine funktionale Formulierung der Variationsinferenz eingeführt, Stein Functional Variational Gradient Descent, bei der Verteilungen über Funktionen direkt mithilfe von Gradienten optimiert werden, die aus der Stein’schen Identität hergeleitet sind. Durch diesen Ansatz wird eine präzise prädiktive Inferenz in überparametrisierten Modellen, insbesondere Bayes’schen neuronalen Netzen, ermöglicht, bei denen die Posteriorverteilung aufgrund der großen Anzahl an Parametern und der Überparametrisierung nur begrenzt informativ ist. Im Gegensatz dazu werden im zweiten Teil der Dissertation neue Methoden für die sogenannte Semi-Implicit Variational Inference (SIVI) entwickelt, wobei der Schwerpunkt von prädiktiver Inferenz hin zu einer genaueren Approximation komplexer posteriorer Dichten verlagert wird. Es wird ein neues unverzerrtes Verfahren eingeführt, das darauf beruht, einen MCMC-basierten Berechnungsschritt durch gewichtete Stichprobenverfahren mit gelernten Vorschlagsverteilungen zu ersetzen. Dadurch entsteht ein effizient berechenbarer und vollständig differenzierbarer Gradientenschätzer. Weitere Verbesserungen werden durch die Einbindung von kernelbasierten Richtungsableitungen entlang reparametrisierter Pfade sowie einer Verzerrungskorrektur mit Hilfe von gewichteten Stichproben erzielt. Hierdurch werden die Vorteile adaptiver Vorschlagsverteilungen und nichtparametrischer Glättung in der resultierenden Methode vereint, wodurch sowohl die Stabilität als auch die Genauigkeit der posterioren Approximation erhöht werden. Durch diese methodischen Innovationen entsteht eine einheitliche Perspektive auf die Weiterentwicklung der Variationsinferenz über konventionelle Approximationen hinaus. Die vorgeschlagenen Verfahren, die funktionale Inferenz, adaptive Vorschlagsmechanismen und kernelbasierte Schätzer integrieren, verbessern sowohl die Genauigkeit als auch die praktische Anwendbarkeit der Bayes'schen Inferenz in modernen maschinellen Lernumgebungen.

Not available

Pielok, Tobias Patrick

13. Mar. 2026

2026

Englisch

Universitätsbibliothek der Ludwig-Maximilians-Universität München

https://nbn-resolving.org/urn:nbn:de:bvb:19-368148

Pielok, Tobias Patrick (2026): Advancing variational inference: semi-implicit models, adaptive proposals, and Functional Stein Gradients. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik

[thumbnail of Pielok_Tobias_Patrick.pdf]

Vorschau

PDF
Pielok_Tobias_Patrick.pdf
6MB

URN: urn:nbn:de:bvb:19-368148

Abstract

Die Variationsinferenz (VI) ist ein etabliertes Verfahren der approximativen Bayes’schen Inferenz. Ihr Hauptvorteil liegt in der hohen rechnerischen Skalierbarkeit, doch wird die Genauigkeit von VI-Methoden häufig durch zu restriktive Approximationsannahmen gemindert. Insbesondere werden durch diese Annahmen häufig die Fähigkeit herkömmlicher VI-Methoden, komplexe Posteriorverteilungen adäquat zu erfassen, eingeschränkt. Diese Herausforderungen werden in der vorliegenden Dissertation adressiert, indem Verfahren entwickelt werden, die die Repräsentationsfähigkeit und Stabilität der Variationsinferenz durch Optimierung im Funktionsraum, gewichtete Stichproben zur Varianzreduktion und kernelbasierte Gradientenabschätzung verbessern. Im ersten Teil der Arbeit wird eine funktionale Formulierung der Variationsinferenz eingeführt, Stein Functional Variational Gradient Descent, bei der Verteilungen über Funktionen direkt mithilfe von Gradienten optimiert werden, die aus der Stein’schen Identität hergeleitet sind. Durch diesen Ansatz wird eine präzise prädiktive Inferenz in überparametrisierten Modellen, insbesondere Bayes’schen neuronalen Netzen, ermöglicht, bei denen die Posteriorverteilung aufgrund der großen Anzahl an Parametern und der Überparametrisierung nur begrenzt informativ ist. Im Gegensatz dazu werden im zweiten Teil der Dissertation neue Methoden für die sogenannte Semi-Implicit Variational Inference (SIVI) entwickelt, wobei der Schwerpunkt von prädiktiver Inferenz hin zu einer genaueren Approximation komplexer posteriorer Dichten verlagert wird. Es wird ein neues unverzerrtes Verfahren eingeführt, das darauf beruht, einen MCMC-basierten Berechnungsschritt durch gewichtete Stichprobenverfahren mit gelernten Vorschlagsverteilungen zu ersetzen. Dadurch entsteht ein effizient berechenbarer und vollständig differenzierbarer Gradientenschätzer. Weitere Verbesserungen werden durch die Einbindung von kernelbasierten Richtungsableitungen entlang reparametrisierter Pfade sowie einer Verzerrungskorrektur mit Hilfe von gewichteten Stichproben erzielt. Hierdurch werden die Vorteile adaptiver Vorschlagsverteilungen und nichtparametrischer Glättung in der resultierenden Methode vereint, wodurch sowohl die Stabilität als auch die Genauigkeit der posterioren Approximation erhöht werden. Durch diese methodischen Innovationen entsteht eine einheitliche Perspektive auf die Weiterentwicklung der Variationsinferenz über konventionelle Approximationen hinaus. Die vorgeschlagenen Verfahren, die funktionale Inferenz, adaptive Vorschlagsmechanismen und kernelbasierte Schätzer integrieren, verbessern sowohl die Genauigkeit als auch die praktische Anwendbarkeit der Bayes'schen Inferenz in modernen maschinellen Lernumgebungen.

Dokumententyp:	Dissertationen (Dissertation, LMU München)
Themengebiete:	300 Sozialwissenschaften 300 Sozialwissenschaften > 310 Statistik
Fakultäten:	Fakultät für Mathematik, Informatik und Statistik
Sprache der Hochschulschrift:	Englisch
Datum der mündlichen Prüfung:	13. März 2026
1. Berichterstatter:in:	Bischl, Bernd
MD5 Prüfsumme der PDF-Datei:	2c9e72d66e4da24b60082a7242c12ceb
Signatur der gedruckten Ausgabe:	0001/UMC 31872
ID Code:	36814
Eingestellt am:	10. Apr. 2026 14:17
Letzte Änderungen:	10. Apr. 2026 14:17

Nur für Administratoren und Editoren: Dokument bearbeiten