Logo Logo
Help
Contact
Switch language to German
Evaluating the PISA sampling design by stratification schemes and weighting procedures in hierarchical modelling
Evaluating the PISA sampling design by stratification schemes and weighting procedures in hierarchical modelling
The Programme for International Student Assessment (PISA) is an important assessment tool. As a worldwide monitoring study of basic educational competencies of fifteen-year-old students, it allows to conclude education systems, long-term educational investments and identify educational development and referred changes in time. In PISA, a state-of-the-art sampling design acknowledged by the scientific community is applied (Rutkowski et al., 2013). As this complex sampling design must be accounted for in the study's analyses, statistical techniques, and procedures were developed. To evaluate improving alternatives in the complexity of these methods, it is essential to constantly conduct theoretical considerations and associated simulation studies (Boulesteix et al., 2020). In this dissertation, two PISA-sampling-related topics were examined in detail. New derived suggestions for substantial improvements to the PISA sampling design were built based on these findings. Both studies presented in this dissertation look at sampling-related concepts (both model groups of sampling units), i.e., weighting in hierarchical linear models and stratification in the PISA sampling process. Those concepts must be correctly represented in analyses to avoid biased standard error estimators. In the first study, we determine under theoretical consideration and simulation which stratification scheme is best for PISA in Germany. Thus, we examine seven different stratification designs – selected according to scenarios used in past large-scale assessment studies in Germany – and theoretical, new devised approaches for future implementations. As a result of this examination, we recommend a stratification of grouped German federal states and designs using school types as explicit and federal states as implicit stratifiers. In the second study, we identify the best utilisation of sampling weights in hierarchical linear modelling based on theoretical considerations and simulative results. We examine nine different weighting designs. The selected sampling scenarios are based on framing approaches to explain required weighting in hierarchical modelling, settings promoted in the literature and theoretical, new devised considerations for future implementations. We consider different estimation, optimization, acceleration methods, and approaches to using sampling weights. The results reveal three weighting approaches performing best in retrieving the true population parameters. One implies using only level two weights (here: final school weights). Due to its simple implementation, it is the most favorable one., Das Programme for International Student Assessment (PISA) ist als weltweite Beobachtungs-Studie der Grundkompetenzen 15-jähriger Schüler:innen ein sehr wichtiges Bewertungsinstrument, um Schlüsse über Bildungssysteme und langfristige Bildungsinvestitionen zu ziehen sowie um Bildungsentwicklungen im Zeitverlauf zu ermitteln. Bei PISA wird ein wissenschaftlich fundiertes und anerkanntes Stichprobendesign angewandt (Rutkowski et al., 2013). Da dieses komplexe Stichprobendesign auch in den Auswertungsmethoden der Studie berücksichtigt werden muss, wurden vielfach zitierte Analysetechniken und -verfahren entwickelt. Um diese komplexen Methoden regelmäßig zu überprüfen und gegebenenfalls zu verbessern, ist es wichtig, wiederholt theoretische Weiterentwicklungen und entsprechende Überprüfung durch Simulationsstudien durchzuführen (Boulesteix et al., 2020). In dieser Dissertation werden zwei PISA-Stichprobenverfahren näher untersucht. Auf der Grundlage dieser Erkenntnisse werden neue Vorschläge für wesentliche Verbesserungen des PISA-Stichprobendesigns abgeleitet. Beide Studien befassen sich mit stichprobenbezogenen Konzepten. Im Speziellen sind dies Gewichtungen in hierarchischen linearen Modellen und Stratifizierungsverfahren der PISA-Stichprobe. Es ist von großer Bedeutung, dass sie in den Analysen korrekt dargestellt werden, um verzerrte Standardfehlerschätzer zu vermeiden. In der ersten Studie untersuchen wir Theorie geleitet und mit einem simulativen Ansatz, welches Stratifikationsschema für PISA in Deutschland am besten ist. Dazu untersuchen wir sieben verschiedene Stratifikationsdesigns – ausgewählt auf der Grundlage von Szenarien, welche in vergangenen large-scale assessment Studien in Deutschland verwendet wurden – sowie theoretische und neu entwickelte Überlegungen für zukünftige Implementierungen. Als Ergebnis dieser Studie empfehlen wir eine Stratifizierung von gruppierten Bundesländern sowie Szenarien, die lediglich Schulformen als explizite und zusätzlich Bundesländer als implizite Stratifizierung verwenden. In der zweiten Studie ermitteln wir auf Grundlage theoretischer Überlegungen und simulativer Ergebnisse die beste Anwendung von Stichprobengewichte in hierarchischen linearen Modellen. Wir betrachten neun verschiedene Ansätze zur Verwendung dieser Gewichte. Die ausgewählten Stichprobenszenarien basieren auf Rahmenansätzen zur Erklärung der erforderlichen Gewichtung in der hierarchischen Modellierung, auf in der Literatur zitierten Verfahren und auf theoretischen, neu entwickelten Überlegungen für zukünftige Implementierungen. Wir betrachten verschiedene Schätzmethoden, inklusive dreier Simulationsszenarien und zweier Softwarepakete zur hierarchischen Modellierung. Die Simulationsergebnisse zeigen, dass drei Gewichtungsansätze am besten geeignet sind, um die wahren Populationsparameter zu schätzen. Einer von ihnen beinhaltet nur die Verwendung von Gewichten der Ebene zwei (hier: Gewichte der Schulebene) und ist aufgrund seiner einfachen Umsetzung die Variante, die zu präferieren ist.
Programme for International Student Assessment (PISA), large-scale assessment (LSA), stratification, explicit stratification, implicit stratification, systematic random sampling, simulation study, sampling weights, Hierarchical models (HLM), Multilevel models (MLM), Scaling of sampling weights
Mang, Julia
2023
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Mang, Julia (2023): Evaluating the PISA sampling design by stratification schemes and weighting procedures in hierarchical modelling. Dissertation, LMU München: Faculty of Mathematics, Computer Science and Statistics
[thumbnail of Mang_Julia.pdf]
Preview
Licence: Creative Commons: Attribution 4.0 (CC-BY)
PDF
Mang_Julia.pdf

14MB

Abstract

The Programme for International Student Assessment (PISA) is an important assessment tool. As a worldwide monitoring study of basic educational competencies of fifteen-year-old students, it allows to conclude education systems, long-term educational investments and identify educational development and referred changes in time. In PISA, a state-of-the-art sampling design acknowledged by the scientific community is applied (Rutkowski et al., 2013). As this complex sampling design must be accounted for in the study's analyses, statistical techniques, and procedures were developed. To evaluate improving alternatives in the complexity of these methods, it is essential to constantly conduct theoretical considerations and associated simulation studies (Boulesteix et al., 2020). In this dissertation, two PISA-sampling-related topics were examined in detail. New derived suggestions for substantial improvements to the PISA sampling design were built based on these findings. Both studies presented in this dissertation look at sampling-related concepts (both model groups of sampling units), i.e., weighting in hierarchical linear models and stratification in the PISA sampling process. Those concepts must be correctly represented in analyses to avoid biased standard error estimators. In the first study, we determine under theoretical consideration and simulation which stratification scheme is best for PISA in Germany. Thus, we examine seven different stratification designs – selected according to scenarios used in past large-scale assessment studies in Germany – and theoretical, new devised approaches for future implementations. As a result of this examination, we recommend a stratification of grouped German federal states and designs using school types as explicit and federal states as implicit stratifiers. In the second study, we identify the best utilisation of sampling weights in hierarchical linear modelling based on theoretical considerations and simulative results. We examine nine different weighting designs. The selected sampling scenarios are based on framing approaches to explain required weighting in hierarchical modelling, settings promoted in the literature and theoretical, new devised considerations for future implementations. We consider different estimation, optimization, acceleration methods, and approaches to using sampling weights. The results reveal three weighting approaches performing best in retrieving the true population parameters. One implies using only level two weights (here: final school weights). Due to its simple implementation, it is the most favorable one.

Abstract

Das Programme for International Student Assessment (PISA) ist als weltweite Beobachtungs-Studie der Grundkompetenzen 15-jähriger Schüler:innen ein sehr wichtiges Bewertungsinstrument, um Schlüsse über Bildungssysteme und langfristige Bildungsinvestitionen zu ziehen sowie um Bildungsentwicklungen im Zeitverlauf zu ermitteln. Bei PISA wird ein wissenschaftlich fundiertes und anerkanntes Stichprobendesign angewandt (Rutkowski et al., 2013). Da dieses komplexe Stichprobendesign auch in den Auswertungsmethoden der Studie berücksichtigt werden muss, wurden vielfach zitierte Analysetechniken und -verfahren entwickelt. Um diese komplexen Methoden regelmäßig zu überprüfen und gegebenenfalls zu verbessern, ist es wichtig, wiederholt theoretische Weiterentwicklungen und entsprechende Überprüfung durch Simulationsstudien durchzuführen (Boulesteix et al., 2020). In dieser Dissertation werden zwei PISA-Stichprobenverfahren näher untersucht. Auf der Grundlage dieser Erkenntnisse werden neue Vorschläge für wesentliche Verbesserungen des PISA-Stichprobendesigns abgeleitet. Beide Studien befassen sich mit stichprobenbezogenen Konzepten. Im Speziellen sind dies Gewichtungen in hierarchischen linearen Modellen und Stratifizierungsverfahren der PISA-Stichprobe. Es ist von großer Bedeutung, dass sie in den Analysen korrekt dargestellt werden, um verzerrte Standardfehlerschätzer zu vermeiden. In der ersten Studie untersuchen wir Theorie geleitet und mit einem simulativen Ansatz, welches Stratifikationsschema für PISA in Deutschland am besten ist. Dazu untersuchen wir sieben verschiedene Stratifikationsdesigns – ausgewählt auf der Grundlage von Szenarien, welche in vergangenen large-scale assessment Studien in Deutschland verwendet wurden – sowie theoretische und neu entwickelte Überlegungen für zukünftige Implementierungen. Als Ergebnis dieser Studie empfehlen wir eine Stratifizierung von gruppierten Bundesländern sowie Szenarien, die lediglich Schulformen als explizite und zusätzlich Bundesländer als implizite Stratifizierung verwenden. In der zweiten Studie ermitteln wir auf Grundlage theoretischer Überlegungen und simulativer Ergebnisse die beste Anwendung von Stichprobengewichte in hierarchischen linearen Modellen. Wir betrachten neun verschiedene Ansätze zur Verwendung dieser Gewichte. Die ausgewählten Stichprobenszenarien basieren auf Rahmenansätzen zur Erklärung der erforderlichen Gewichtung in der hierarchischen Modellierung, auf in der Literatur zitierten Verfahren und auf theoretischen, neu entwickelten Überlegungen für zukünftige Implementierungen. Wir betrachten verschiedene Schätzmethoden, inklusive dreier Simulationsszenarien und zweier Softwarepakete zur hierarchischen Modellierung. Die Simulationsergebnisse zeigen, dass drei Gewichtungsansätze am besten geeignet sind, um die wahren Populationsparameter zu schätzen. Einer von ihnen beinhaltet nur die Verwendung von Gewichten der Ebene zwei (hier: Gewichte der Schulebene) und ist aufgrund seiner einfachen Umsetzung die Variante, die zu präferieren ist.