Logo Logo
Hilfe
Kontakt
Switch language to English
Boosting in structured additive models
Boosting in structured additive models
Variable selection and model choice are of major concern in many statistical applications, especially in regression models for high-dimensional data. Boosting is a convenient statistical method that combines model fitting with intrinsic model selection. We investigate the impact of base-learner specification on the performance of boosting as a model selection procedure. We show that variable selection may be biased if the base-learners have different degrees of flexibility, both for categorical covariates and for smooth effects of continuous covariates. We investigate these problems from a theoretical perspective and suggest a framework for unbiased model selection based on a general class of penalized least squares base-learners. Making all base-learners comparable in terms of their degrees of freedom strongly reduces the selection bias observed with naive boosting specifications. Furthermore, the definition of degrees of freedom that is used in the smoothing literature is questionable in the context of boosting, and an alternative definition is theoretically derived. The importance of unbiased model selection is demonstrated in simulations and in an application to forest health models. A second aspect of this thesis is the expansion of the boosting algorithm to new estimation problems: by using constraint base-learners, monotonicity constrained effect estimates can be seamlessly incorporated in the existing boosting framework. This holds for both, smooth effects and ordinal variables. Furthermore, cyclic restrictions can be integrated in the model for smooth effects of continuous covariates. In particular in time-series models, cyclic constraints play an important role. Monotonic and cyclic constraints of smooth effects can, in addition, be extended to smooth, bivariate function estimates. If the true effects are monotonic or cyclic, simulation studies show that constrained estimates are superior to unconstrained estimates. In three case studies (the modeling the presence of Red Kite in Bavaria, the modeling of activity profiles for Roe Deer, and the modeling of deaths caused by air pollution in Sao Paulo) it is shown that both constraints can be integrated in the boosting framework and that they are easy to use. All described results were included in the R add-on package mboost., Insbesondere in Regressionsmodellen für hochdimensionale Daten kommt der Variablenselektion und der Modellwahl eine herausragende Bedeutung zu. Boosting-Verfahren bieten die Möglichkeit die Modellanpassung mit intrinsischer Modellwahl zu kombinieren. In dieser Arbeit wird der Einfluss der Spezifikation der Base-learner auf die Modellwahl untersucht. Es zeigt sich, dass sowohl für kategoriale Einflussvariablen als auch für glatte Effekte stetiger Einflussgrößen Base-learner mit höheren Freiheitsgraden bevorzugt werden. Um diese Verzerrung zu reduzieren oder gar zu vermeiden müssen die Freiheitsgrade gleich gewählt werden. Darüber hinaus wird der in der Smoothing-Literatur vorherrschende Freiheitsgradbegriff im Kontext von Boosting in Frage gestellt und eine alternative Definition theoretisch begründet. Die hergeleiteten Resultate werden in Simulationsstudien untersucht und beispielhaft für die Modellierung von Waldschadensdaten herangezogen. Ein weiterer Aspekt dieser Arbeit besteht in der Erweiterung des Boosting-Algorithmus auf neue Fragestellungen: Durch die Einbeziehung von Nebenbedingungen in die Schätzung der Base-learner können monotonie-restringierte Effekte nahtlos in den bestehende Rahmen integriert werden. Dies ist sowohl für glatte Effekte als auch für ordinale Variablen möglich. Darüber hinaus lassen sich zyklische Restriktionen für glatte Funktionen einer stetigen Variable in die Modellschätzung einbeziehen. Zyklische Restriktionen spielen insbesondere in der Modellierung von Zeitreihen eine wichtige Rolle. Monotonie und zyklische Effekte lassen sich darüber hinaus ebenso auf glatte, bivariate Funktionen erweitern. Beide Arten von Restriktionen stellen sich in Simulationsstudien gegenüber unrestringierten Modellen als überlegen heraus, falls in Wahrheit ein monotoner bzw. ein zyklischer Effekt vorliegt. In drei Anwendungen (der Modellierung des Vorkommens von Rotmilanen in Bayern, der Modellierung von Aktivitätsmustern beim Reh und der Modellierung der Todesfälle aufgrund von Luftverschmutzung in Sao Paulo) zeigt sich, dass sich die beschriebenen Restriktionen in Boosting-Modelle integrieren und einfach verwenden. Alle beschriebenen Ergebnisse fanden Eingang in das R Paket mboost.
Not available
Hofner, Benjamin
2011
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Hofner, Benjamin (2011): Boosting in structured additive models. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Hofner_Benjamin.pdf]
Vorschau
PDF
Hofner_Benjamin.pdf

2MB

Abstract

Variable selection and model choice are of major concern in many statistical applications, especially in regression models for high-dimensional data. Boosting is a convenient statistical method that combines model fitting with intrinsic model selection. We investigate the impact of base-learner specification on the performance of boosting as a model selection procedure. We show that variable selection may be biased if the base-learners have different degrees of flexibility, both for categorical covariates and for smooth effects of continuous covariates. We investigate these problems from a theoretical perspective and suggest a framework for unbiased model selection based on a general class of penalized least squares base-learners. Making all base-learners comparable in terms of their degrees of freedom strongly reduces the selection bias observed with naive boosting specifications. Furthermore, the definition of degrees of freedom that is used in the smoothing literature is questionable in the context of boosting, and an alternative definition is theoretically derived. The importance of unbiased model selection is demonstrated in simulations and in an application to forest health models. A second aspect of this thesis is the expansion of the boosting algorithm to new estimation problems: by using constraint base-learners, monotonicity constrained effect estimates can be seamlessly incorporated in the existing boosting framework. This holds for both, smooth effects and ordinal variables. Furthermore, cyclic restrictions can be integrated in the model for smooth effects of continuous covariates. In particular in time-series models, cyclic constraints play an important role. Monotonic and cyclic constraints of smooth effects can, in addition, be extended to smooth, bivariate function estimates. If the true effects are monotonic or cyclic, simulation studies show that constrained estimates are superior to unconstrained estimates. In three case studies (the modeling the presence of Red Kite in Bavaria, the modeling of activity profiles for Roe Deer, and the modeling of deaths caused by air pollution in Sao Paulo) it is shown that both constraints can be integrated in the boosting framework and that they are easy to use. All described results were included in the R add-on package mboost.

Abstract

Insbesondere in Regressionsmodellen für hochdimensionale Daten kommt der Variablenselektion und der Modellwahl eine herausragende Bedeutung zu. Boosting-Verfahren bieten die Möglichkeit die Modellanpassung mit intrinsischer Modellwahl zu kombinieren. In dieser Arbeit wird der Einfluss der Spezifikation der Base-learner auf die Modellwahl untersucht. Es zeigt sich, dass sowohl für kategoriale Einflussvariablen als auch für glatte Effekte stetiger Einflussgrößen Base-learner mit höheren Freiheitsgraden bevorzugt werden. Um diese Verzerrung zu reduzieren oder gar zu vermeiden müssen die Freiheitsgrade gleich gewählt werden. Darüber hinaus wird der in der Smoothing-Literatur vorherrschende Freiheitsgradbegriff im Kontext von Boosting in Frage gestellt und eine alternative Definition theoretisch begründet. Die hergeleiteten Resultate werden in Simulationsstudien untersucht und beispielhaft für die Modellierung von Waldschadensdaten herangezogen. Ein weiterer Aspekt dieser Arbeit besteht in der Erweiterung des Boosting-Algorithmus auf neue Fragestellungen: Durch die Einbeziehung von Nebenbedingungen in die Schätzung der Base-learner können monotonie-restringierte Effekte nahtlos in den bestehende Rahmen integriert werden. Dies ist sowohl für glatte Effekte als auch für ordinale Variablen möglich. Darüber hinaus lassen sich zyklische Restriktionen für glatte Funktionen einer stetigen Variable in die Modellschätzung einbeziehen. Zyklische Restriktionen spielen insbesondere in der Modellierung von Zeitreihen eine wichtige Rolle. Monotonie und zyklische Effekte lassen sich darüber hinaus ebenso auf glatte, bivariate Funktionen erweitern. Beide Arten von Restriktionen stellen sich in Simulationsstudien gegenüber unrestringierten Modellen als überlegen heraus, falls in Wahrheit ein monotoner bzw. ein zyklischer Effekt vorliegt. In drei Anwendungen (der Modellierung des Vorkommens von Rotmilanen in Bayern, der Modellierung von Aktivitätsmustern beim Reh und der Modellierung der Todesfälle aufgrund von Luftverschmutzung in Sao Paulo) zeigt sich, dass sich die beschriebenen Restriktionen in Boosting-Modelle integrieren und einfach verwenden. Alle beschriebenen Ergebnisse fanden Eingang in das R Paket mboost.