Salanti, Georgia (2003): The Isotonic Regression Framework: Estimating and Testing under Order Restrictions. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics
 Preview PDF Salanti_Georgia.pdf 1MB

### Abstract

Categorizing continuous variables arises as an important task in statistical analysis, especially in analyzing dose-response relationships. Creating meaningful groups of the predictor variables regarding the outcome variable is desirable in many settings, especially if the form of the relationship is unknown. However it is not always obvious how many groups should be build and where the cutpoints should be placed. Usually more than one explanatory variable has to be included in the analysis, and therefore one has to apply an appropriate statistical model. For this purpose we need a simple approach to model the data without many requirements. Another important issue in statistical analysis and especially in toxicology studies is proving a dose response relationship: increasing response probability with increasing predictor variable. This theses deals with cases where categorization of numerical or categorical predictor variables results as an effect of the dose-response relationship. Isotonic regression is an alternative proposal when one wishes to establish a dose-response relationship, categorize continuous variables and estimate threshold values. The only assumption for this approach is the monotonicity in the response variable. The isotonic regression summarizes the description of n observations to l categories (level sets or solution blocks) by automatically splitting the predictor in constant risk groups. The result is always a step function, and therefore the isotonic regression can be used to fit a changepoint model. The Pooled Adjacent Violators Algorithm (PAVA) is used to fit the data. In relation to model fitting and testing, some problems arise when the response is binary, and in the present work the difficulties are highlighted and some proposals to solve them are given. Regarding isotonic regression and binary response, the isotonic test for trend, the reduced isotonic model, multidimensional isotonic models and methods to assess threshold limit values are discussed. The isotonic framework provides a reliable test for trend which unlike other widely used tests (the Cochran-Armitage test for example) is independent of any monotonic transformation of the dose variable and does not assume a linear shape. However the proposed large sample approximation (a weighted chi-square distribution) does not hold when the overall response probability is less than 5\% and thus exact methods are proposed in order to assess the correct p-value. In a simulation study it has been shown that the isotonic likelihood ratio test is more powerful than the Cochran-Armitage test, the Wilcoxon test and the Iso-chi-squared test. The model resulting from PAVA can become more parsimonious if the level sets which correspond to a non significant change for the response variable are eliminated. This model is called reduced isotonic regression. That can be accomplished by two means: a sequence of Fisher tests for the adjacent 2x2 tables or the application of a variation of a "closed testing" procedure. The correction for multiple comparisons is made for the first method by an a-priori estimation of the overall significance level in a permutation procedure. In the second method the control for the expense of the type I error is effected by the closure principal. To select between full isotonic and reduced model, a procedure based on parametric bootstrap is proposed. A simulation study proved that when the maximal coefficient of determination for the analyzed data set is at least 50% and the data can be represented by a step function, the reduced monotonic regression controls successfully the trade off between model complexity and goodness of fit. When more than one predictor is to be taken into account an additive isotonic model can be applied. Alternatively, an isotonic-surfaces model is proposed. This can be estimated by an iterative version of the Pooled Adjacent Violators Algorithm. The result is a sequence of surfaces which is monotonic in every dimension. This approach models interaction and categorizes the predictors in "multivariate" groups by combining them regarding restrictions to the outcome variable. This approach is very useful since, unlike the additive model, it can be easily combined with the reducing procedures to give a simple and interpretable model. However, for practical reasons a maximum of three predictors can be taken into account. A special aspect in analyzing dose-response relationships for a compound known to have harmful health effects, is to estimate a threshold limit value (TVL). On this regard a "hockey stick" threshold model is usually used. As alternative the use of a step function model by fitting the data using isotonic regression is proposed. A set of candidate threshold values is returned, and some threshold value estimation procedures are studied here. One of them starts from the isotonic model and applies the likelihood ratio test to detect the threshold value (method 1). Method 2 is based on the reduced isotonic regression. The performance of these two approaches is outlined in a simulation study under different scenarios and their properties are explored with categorical predictors. It is concluded that these methods possess a satisfactory power to reject the constant risk assumption, when a dose-response relationship exists as well as to estimate the actual threshold. Some limitations regarding the sample size and the force of trend are also discussed. A third method has also been presented. This modifies the closed testing procedure for the special case of thresholds, by setting one end of the regression line conditional to the other. All three threshold value estimation methods can be combined with the isotonic-surfaces model to provide thresholds, taking into account interactions between the predictor variables. The use of isotonic regression and its reduced version can also be extended to other settings. The capability of isotonic regression to be implemented in several models is outlined by describing how isotonic regression can model and test time-varying effects in Cox regression. The monotonic variation in the impact of a predictor included in the model during an observational period can be represented by a step function. An estimation of the time-dependent effect in the extended Cox model is presented based on isotonic regression framework. Smoothing the Schoenfeld residuals plotted against time applying PAVA, can reveal the changepoints without any a priori information about their location. The corresponding step function is then introduced in the model. The power of the Grambsch and Therneau test (which tests for time-variation in the effect of the predictors) can be improved if the isotonic transformation for the Schoenfeld residuals is used. Although this test appears to increase the type I error, its power is higher compared to conventional Grambsch and Therneau test and tests based on fractional polynomials. In summary it arises that isotonic framework is characterized by simplicity and stability. The main drawback underlying its application is the lack of asymptotic support in testing. This can make the use of isotonic models cumbersome since exact or bootstrap methods need to be used.

### Abstract

Die Kategorisierung von stetigen Merkmalen erweist sich als eine sehr wichtige Aufgabe innerhalb statistischer Analysen, ganz besonders in der Analyse von Dosis-Wirkungs-Beziehungen. Es ist in vielen Situationen wünschenswert, sinnvolle Gruppen innerhalb der Prädiktorvariablen zu finden und zu bilden. Dennoch bleibt oft die Frage, wieviele Gruppen gebildet werden sollen und wo genau die jeweiligen Grenzwerte liegen sollen. Wird mehr als eine erklärende Variable in die Analyse eingeschlossen, muss ein passendes statistisches Modell gefunden und angewendet werden. Wünschenswert wäre ein möglichtst einfacher Ansatz zur Modellierung der Daten, der wenige Voraussetzungen erfordert. Ein wichtiges Problem in der statistischen Analyse, besonders in toxikologischen Studien, ist der Nachweis von Dosis-Wirkungs Beziehung, d.h. wenn mit einem Ansteigen der erklärenden Variablen auch eine Steigung der Wahrscheinlichkeit für das Auftreten der Zielgrösse einhergeht. Diese Doktorarbeit behandelt Situationen, bei denen die Kategorisierung von stetigen oder kategorialen Variablen als Ergebnis der Analyse von Dosis-Wirkungs-Beziehung (DWZ) einhergeht. Isotone Regression liefert einen alternativen Ansatz, um eine Dosis-Wirkungs-Bezie-hung nachzuweisen, stetige Merkmale zu kategorisieren und Grenzwerte zu schätzen. Die einzige Voraussetzung bei diesem Ansatz ist die Monotonie in der Zielgrösse. Die isotone Regression fasst n verschiedene Beobachtungen in l verschiedene Blöcke zusammen, indem sie die Prädiktoren in Gruppen mit jeweils konstantem Risiko einteilt. Da das Resultat eine Treppenfunktion ist, kann die isotone Regression benutzt werden, um Schwellenwerte zu erkennen. Der Pool Adjacent Violators Algorithmus (PAVA) setzt diesen nicht-parametrischen Ansatz um. Bei binärer Zielgrösse entstehen hier Probleme bezüglich der Modellschätzung und der Modelltests. Ein Hauptaugenmerk dieser Arbeit liegt auf der genauen Untersuchung dieser Probleme und bietet teilweise Lösungsvorschläge an. Bezüglich der Isotonen Regression mit binärer Zielgrösse werden mehrere Gebiete genauer diskutiert: das reduzierte isotone Modell, das multidimensionale isotone Modell und Methoden zur Bewertung von Schwellenwerten. Der isotone Ansatz liefert auch einen Trendtest, der, im Gegensatz zu anderen Trendtests (wie z.B. der Cochran-Armitage Test), unbeeinflusst von monotonen Transformationen der Dosisvariable ist und auch keinen linearen Zusammenhang voraussetzt. Die vorgeschlagene asymptotische Verteilung (eine gewichtete Chi-Quadrat Verteilung) liegt nicht vor, wenn die Wahrscheinlichkeit für das Auftreten der Zielgrösse unter 5% sinkt. Hier sind exakte Methoden erforderlich, die einen genauen P-Wert bestimmen. In einer Simulationsstudie konnte gezeigt werden, dass dieser isotone Likelihood-Quotienten-Test eine grössere Power besitzt als der Cochran-Armitage-Test, der Wilcoxon Test und der Iso-Chi-Quadrat-Test. Das isotone Modell kann noch vereinfacht werden, indem die Blöcke, die einen nicht-signifikanten Einfluss haben, zusammengefasst werden. Hierzu wurden zwei verschiedene Methoden verglichen: einer Sequenz von exakten Fisher-Tests für die benachbarten Blöcke sowie eine Variante eines "closed testing" Prozesses. Die Korrektur für multiple Vergleiche des P-Wertes wird bei der ersten Methode durch eine a-priori Schätzung des Gesamtsignifikanzniveaus mittels eines Permutationsverfahrens erreicht. Bei der zweiten Methode ist die Kontrolle des Fehlers erster Art durch das Einschliessungsverfahren beeinflusst. Um letztendlich zwischen dem vollen Modell und seinem reduzierten äquivalent zu entscheiden, wurde ein parametrisches Bootstrap-Verfahren vorgeschlagen. In einer Simulationsstudie zeigte sich, wenn der maximale Koeffizient für die Daten mindestens 50% betragen soll und die Daten durch eine Treppenfunktion dargestellt werden können, dann stellt die reduzierte isotone Regression einen guten Kompromiss zwischen hoher Modellkomplexität und Güte dar. Wurde mehr als eine Prädiktorvariable berücksichtigt, dann kann ein additives Modell verwendet werden. Alternativ hierzu wurde ein "isotone-Fläche"-Modell vorgeschlagen. Dieses kann mittels einer iterativen Version des PAVA geschätzt werden und resultiert in einer Sequenz von Flächen, die in jeder Dimension monoton sind. Es werden hierbei Interaktionen modelliert und die Prädiktoren in multidimensionale Gruppen bezüglich bestimmter Einschränkungen der Zielgrösse unterteilt. Dieser Ansatz ist sehr elegant, da er, im Gegensatz zum additiven Modell, leicht mit dem Reduzierungsverfahren kombiniert werden kann, und so einfache und leicht interpretierbare Modelle liefert. Aus praktischen Gründen können hierbei jedoch nur bis zu maximal drei Prädiktorvariablen in das Modell genommen werden. Die Schätzung von Schwellenwerten für Stoffe, die sich bekanntermassen negativ auf die Gesundheit auswirken, ist von grösster Bedeutung in der Epidemiologie. In diesem Zusammenhang wird normalerweise ein "hockey stick"-Schwellenwertmodell angewandt. Alternativ wurde ein Modell vorgeschlagen, das auf dem Resultat einer isotonen Regression, also einer Treppenfunktion, basiert. Es gilt aus einer Reihe von Schwellenwerten einen Wert auszuwählen. Verschiedene Schätzer wurden untersucht. Eine Methode setzt beim isotonen Modell an und führt einen Likelihood-Quotienten-Test durch. Die zweite Methode basiert auf der reduzierten isotonen Regression. Die Leistung der beiden Algorithmen wurde in einer Simulationsstudie kurz dargestellt. Die Eigenschaften wurden hierzu in verschiedenen Situationen mit kategorialen Einflussgrössen untersucht. Falls eine Dosis-Wirkungs-Beziehung vorliegt, erweisen sich diese zwei Methoden als ausreichend mächtig, um die Hypothese "das Risiko ändert sich nicht" zu verwerfen. Sie sind zufriedenstellend bezüglich ihrer Fähigkeit, den Schwellenwert zu schätzen. Einige Einschränkungen, entstehend aus der Stichprobengrösse und dem Einfluss des Trends, wurden ebenso diskutiert. Als dritte Methode wurde eine Modifikation der "closed testing" Verfahren vorgeschlagen. Dabei stellt sie ein Ende der Regressionslinie in Abhängigkeit zum anderen Ende dar. Alle drei Schwellenwertschätzer können mit dem "isotone-Fläche"-Modell kombiniert werden, unter Berücksichtigung von Interaktion zwischen den Einflussgrössen. Die Implementierung der isotonen Regression in verschiedene Modelle wird exemplarisch hervorgehoben in einer Anwendung der isotonen Regression im Cox-Modell mit zeitveränderlichen Effekten. Die monotone Variation des Einflusses eines Prädiktors über eine bestimmte Zeitperiode kann durch eine Treppenfunktion dargestellt werden. Eine Schätzung der zeitabhängigen Effekte im erweiterten Cox-Modell, basierend auf isotoner Regression, wurde beschrieben. Werden geglättete Schoenfeld-Residuen gegen die Zeit in einem Diagramm eingetragen, unter Zuhilfenahme von PAVA, können auch ohne a-priori Informationen über ihre Lage, Grenz-werte gefunden werden. Die Power des Grambsch-Therneau Tests zu Untersuchung der Veränderung des Einflusses eines Prädiktors über die Zeit, kann verbessert werden, wenn die Schoenfeld-Residuen mittels PAVA transformiert werden. Obwohl dieser Test scheinbar den Fehler erster Art erhöht, ist seine Power höher im Vergleich zu herkömmlichen Grambsch-Therneau-Test sowie zu Tests, die auf fraktionalen Polynomen basieren. Abschliessend bleibt zu sagen, dass sich meiner Meinung nach die Analyse mittels isotoner Methoden durch Einfachheit und Stabilität auszeichnet. Ihr Hauptnachteil liegt in dem Mangel an asymptotischen Hilfestellungen beim Testen. Dies kann die Verwendung von isotonen Modellen erschweren, da dann exakte oder bootstrap Methoden verwendet werden müssen.