Logo Logo
Help
Contact
Switch language to German
The advent of transformer models in psychometrics. natural language processing and its prospects for scale development
The advent of transformer models in psychometrics. natural language processing and its prospects for scale development
Since the recent emergence of the transformer model architecture, the discipline of natural language processing has advanced significantly, as these deep neural language models demonstrate proficiency in both natural language generation and understanding. As measures in the behavioral and social sciences typically rely on linguistic stimulus material (i.e., rating scales), this thesis examines the utility of transformer models for the scale development process, as examined through two independent studies. Study 1 demonstrates natural language generation by showcasing how a transformer decoder model (i.e., GPT-2) can be trained to produce questionnaire items targeting specific personality traits. To test this method, various human- and machine-authored items were administered to a sample of survey respondents. Results indicated that two-thirds of the machine-authored items exhibit satisfactory psychometric properties. Study 2 showcases the utility of natural language understanding in mitigating social desirability bias in the context of scale development. Here, a transformer encoder model (i.e., based on the XLM-roBERTa model), originally trained for sentiment analysis, is modified and fine-tuned on item desirability ratings from 14 distinct studies. Results show strong predictions (ρ = .80) of human-rated item desirability by the model. This thesis contributes to the field of psychological measurement by supplying researchers and practitioners with novel methodological means to enhance the scale development process. It further examines the relationship between linguistics and psychometrics through the lens of the manifold hypothesis, proposing a psychometric language modeling framework, which posits that psychometric properties can be derived from linguistic aspects of psychological measures, and vice versa., Einleitung Die vorliegende Arbeit setzt sich aus zwei Manuskripten zusammen (im Folgenden Studie 1 und Studie 2 genannt), welche die Anwendung von neuronaler Sprachverarbeitung im Kontext psychologischer Messmethoden und Diagnostik beleuchten. Im Fokus dieser Dissertation steht die Transformer-Modellarchitektur (Vaswani et al., 2017) – eine Klasse von Sprachmodellen, die sich in zahlreichen Aufgabenbereichen der natürlichen Sprachverarbeitung als herausragend erwiesen hat. Zwei Hauptkomponenten dieser Modellarchitektur werden unterschieden: Encoder-Modelle (auch “bi-direktionale Modelle” genannt; bspw. BERT-Modelle; Devlin et al., 2018) eignen sich insbesondere zur interpretativen Sprachverarbeitung (natural language understanding; NLU) und repräsentieren einzelne Spracheinheiten (bspw. Wörter) als kontextualisierte, mehrdimensionale Vektoren. Interpretative Aufgaben, in denen Encoder-Modelle bislang gute Leistung erzielt haben, umfassen unter anderem Textklassifikation, Lückenergänzungsaufgaben, Fragenbeantwortung, sowie die Eigennamenerkennung (Wang et al., 2019). Decoder-Modelle (auch “kausale Modelle” genannt; bspw. GPT-Modelle; Radford et al., 2018) finden primär Anwendung in der generativen Sprachverarbeitung (natural language generation; NLG) und produzieren Textsequenzen durch iteratives, probabilistisches Vorhersagen der nächsten Spracheinheit. Die bemerkenswerten sprachlichen Verarbeitungsfähigkeiten der Transformer-Modelle resultieren aus architektonischen Entscheidungen und den umfangreichen Datenmengen, mit der sie trainiert werden (Tunstall et al., 2022). Durch Transferlernen (transfer learning) können Transformer-Modelle sich effektiv an neue Aufgaben anpassen. In diesem Prozess erwerben die Modelle grundlegende linguistische Fähigkeiten durch Prä-Training (pretraining) anhand von umfangreichen Textkorpora. Anschließend werden sie mithilfe eines kleineren, domänenspezifischen Datensatzes feinjustiert (fine-tuning). Studie 1 Im Gegensatz zu den Inhalten von psychologischen Leistungs- und Wissenstestverfahren kann die automatische Generierung von nicht-kognitiven Items (z. B. Persönlichkeitsitems) nicht algorithmisch mit konventionellen, schablonenbasierten Methoden gelöst werden (Gierl & Lai, 2015). Erste Erfolge hinsichtlich der automatischen Generierung von Persönlichkeitsitems wurden kürzlich durch den Einsatz rekurrenter neuronaler Netze erzielt (von Davier, 2018). Bislang konnten Items jedoch nur unkonditional, ohne die explizite Festlegung eines bestimmten Messziels (d. h., ein Persönlichkeitsmerkmal) generiert werden. Studie 1 demonstriert die Nutzung eines Transformer Decoder-Modells (GPT-2; Radford et al., 2019) zur gezielten Generierung von Persönlichkeitsitems für spezifische Konstrukte, indem ein impliziter Parametrisierungsansatz verwendet wird. Eine anschließende empirische Überprüfung der menschlich und maschinell erstellten Items zeigt, dass etwa zwei Drittel der automatisch generierten Items gute psychometrische Eigenschaften aufweisen (bspw. Faktorladungen über .40). Zudem erreichen etwa ein Drittel der maschinell erstellten Items eine Güte, die mit etablierten Persönlichkeitsitems vergleichbar ist oder diese sogar übertreffen. Studie 2 Die Genauigkeit von selbstberichteten Daten in den Sozial- und Verhaltenswissenschaften kann durch Antwortverzerrungen wie sozial erwünschtes Antwortverhalten beeinträchtigt werden (z. B., Krumpal, 2013; Nederhof, 1985). Forscher und Skalenentwickler erheben daher Bewertungen zur sozialen Erwünschtheit von einzelnen Items (item desirability; Edwards, 1957), beispielsweise um die Neutralität von Fragebögen zu gewährleisten, oder eine Gleichwertigkeit der Antwortalternativen in Zwangwahlaufgaben (forced-choice items) sicherzustellen (Converse et al., 2010; Hughes et al., 2021; Pavlov et al., 2021; Wetzel et al., 2021; Wood et al., 2022). Das Durchführen von Studien zur Bewertung der sozialen Erwünschtheit von Items kann jedoch zeitaufwendig und kostspielig sein, insbesondere da klare Richtlinien bezüglich der benötigten Stichprobengröße und -zusammensetzung fehlen. Diese Studie demonstriert die Fähigkeit von Transformer Encoder-Modellen, abstrakte semantische Attribute in Texten zu identifizieren. Sie demonstriert, wie ein Sentimentanalyse-Modell (XLM-roBERTa von Liu et al., 2019, modifiziert nach Barbieri et al., 2022) zur Bewertung der sozialen Erwünschtheit von Items mit Daten aus 14 unabhängigen Stichproben trainiert werden kann. Die Ergebnisse zeigen eine starke und signifikante Korrelation zwischen der menschlichen Bewertung der sozialen Erwünschtheit und der Einschätzung durch das Sprachmodell (N = 531, ρ = .80). Diskussion In dieser Dissertation werden in zwei Studien die Potenziale von Transformer-Modellen zur Bewältigung typischer Herausforderungen in der Skalenentwicklung beleuchtet. In Studie 1 wird die generative Sprachverarbeitung zur automatischen Erstellung von konstruktspezifischen Persönlichkeitsitems vorgestellt. Studie 2 hingegen legt dar, wie interpretative Sprachverarbeitung zur Bewertung der sozialen Erwünschtheit von Fragebögen auf Item-Ebene eingesetzt werden kann. Die praktische Relevanz dieser Forschung ist augenscheinlich. Die Entwicklung von Skalen ist ein aufwendiges Unterfangen, das durch eine Vielzahl an Herausforderungen geprägt ist. Aufgrund der inhärenten Unsicherheit bei der Vorhersage, welche Items in der endgültigen Version einer Skala beibehalten werden können, empfehlen etablierte Richtlinien oft, das Drei- bis Fünffache der beabsichtigten endgültigen Itemanzahl zu entwerfen (DeVellis & Thorpe, 2022, S. 98; Morey, 2013, S. 407). Die Ergebnisse der vorliegenden Dissertation bieten Forscher und Skalenentwickler eine Erweiterung des methodischen Reportoires der Testkonstruktion. Diese Arbeit knüpft in ihren theoretischen Beiträgen an die Ideen von Goldberg (1968) und Guttman (1944) an und schafft eine konzeptuelle Grundlage für psychometrische Sprachmodellierung – eine Betrachtung der wechselseitigen Beziehung zwischen Linguistik und Psychometrik im Kontext der Mannigfaltigkeits-Hypothese (manifold hypothesis; Narayanan & Mitter, 2010; Fefferman et al., 2016). Dieser Ansatz impliziert ein bi-direktionales Sprachmodell, welches in der Lage ist, psychometrische Eigenschaften allein aufgrund der sprachlichen Merkmale von Items zu bestimmen und umgekehrt, gezielt Items basierend auf vorgegebenen Parametern zu generieren.
natural language processing, psychometrics, LLM, transformer-models, scale development, automatic item generation, social desirability
Hommel, Björn Erik
2024
English
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Hommel, Björn Erik (2024): The advent of transformer models in psychometrics: natural language processing and its prospects for scale development. Dissertation, LMU München: Faculty of Psychology and Educational Sciences
[thumbnail of Hommel_Bjoern_Erik.pdf]
Preview
PDF
Hommel_Bjoern_Erik.pdf

1MB

Abstract

Since the recent emergence of the transformer model architecture, the discipline of natural language processing has advanced significantly, as these deep neural language models demonstrate proficiency in both natural language generation and understanding. As measures in the behavioral and social sciences typically rely on linguistic stimulus material (i.e., rating scales), this thesis examines the utility of transformer models for the scale development process, as examined through two independent studies. Study 1 demonstrates natural language generation by showcasing how a transformer decoder model (i.e., GPT-2) can be trained to produce questionnaire items targeting specific personality traits. To test this method, various human- and machine-authored items were administered to a sample of survey respondents. Results indicated that two-thirds of the machine-authored items exhibit satisfactory psychometric properties. Study 2 showcases the utility of natural language understanding in mitigating social desirability bias in the context of scale development. Here, a transformer encoder model (i.e., based on the XLM-roBERTa model), originally trained for sentiment analysis, is modified and fine-tuned on item desirability ratings from 14 distinct studies. Results show strong predictions (ρ = .80) of human-rated item desirability by the model. This thesis contributes to the field of psychological measurement by supplying researchers and practitioners with novel methodological means to enhance the scale development process. It further examines the relationship between linguistics and psychometrics through the lens of the manifold hypothesis, proposing a psychometric language modeling framework, which posits that psychometric properties can be derived from linguistic aspects of psychological measures, and vice versa.

Abstract

Einleitung Die vorliegende Arbeit setzt sich aus zwei Manuskripten zusammen (im Folgenden Studie 1 und Studie 2 genannt), welche die Anwendung von neuronaler Sprachverarbeitung im Kontext psychologischer Messmethoden und Diagnostik beleuchten. Im Fokus dieser Dissertation steht die Transformer-Modellarchitektur (Vaswani et al., 2017) – eine Klasse von Sprachmodellen, die sich in zahlreichen Aufgabenbereichen der natürlichen Sprachverarbeitung als herausragend erwiesen hat. Zwei Hauptkomponenten dieser Modellarchitektur werden unterschieden: Encoder-Modelle (auch “bi-direktionale Modelle” genannt; bspw. BERT-Modelle; Devlin et al., 2018) eignen sich insbesondere zur interpretativen Sprachverarbeitung (natural language understanding; NLU) und repräsentieren einzelne Spracheinheiten (bspw. Wörter) als kontextualisierte, mehrdimensionale Vektoren. Interpretative Aufgaben, in denen Encoder-Modelle bislang gute Leistung erzielt haben, umfassen unter anderem Textklassifikation, Lückenergänzungsaufgaben, Fragenbeantwortung, sowie die Eigennamenerkennung (Wang et al., 2019). Decoder-Modelle (auch “kausale Modelle” genannt; bspw. GPT-Modelle; Radford et al., 2018) finden primär Anwendung in der generativen Sprachverarbeitung (natural language generation; NLG) und produzieren Textsequenzen durch iteratives, probabilistisches Vorhersagen der nächsten Spracheinheit. Die bemerkenswerten sprachlichen Verarbeitungsfähigkeiten der Transformer-Modelle resultieren aus architektonischen Entscheidungen und den umfangreichen Datenmengen, mit der sie trainiert werden (Tunstall et al., 2022). Durch Transferlernen (transfer learning) können Transformer-Modelle sich effektiv an neue Aufgaben anpassen. In diesem Prozess erwerben die Modelle grundlegende linguistische Fähigkeiten durch Prä-Training (pretraining) anhand von umfangreichen Textkorpora. Anschließend werden sie mithilfe eines kleineren, domänenspezifischen Datensatzes feinjustiert (fine-tuning). Studie 1 Im Gegensatz zu den Inhalten von psychologischen Leistungs- und Wissenstestverfahren kann die automatische Generierung von nicht-kognitiven Items (z. B. Persönlichkeitsitems) nicht algorithmisch mit konventionellen, schablonenbasierten Methoden gelöst werden (Gierl & Lai, 2015). Erste Erfolge hinsichtlich der automatischen Generierung von Persönlichkeitsitems wurden kürzlich durch den Einsatz rekurrenter neuronaler Netze erzielt (von Davier, 2018). Bislang konnten Items jedoch nur unkonditional, ohne die explizite Festlegung eines bestimmten Messziels (d. h., ein Persönlichkeitsmerkmal) generiert werden. Studie 1 demonstriert die Nutzung eines Transformer Decoder-Modells (GPT-2; Radford et al., 2019) zur gezielten Generierung von Persönlichkeitsitems für spezifische Konstrukte, indem ein impliziter Parametrisierungsansatz verwendet wird. Eine anschließende empirische Überprüfung der menschlich und maschinell erstellten Items zeigt, dass etwa zwei Drittel der automatisch generierten Items gute psychometrische Eigenschaften aufweisen (bspw. Faktorladungen über .40). Zudem erreichen etwa ein Drittel der maschinell erstellten Items eine Güte, die mit etablierten Persönlichkeitsitems vergleichbar ist oder diese sogar übertreffen. Studie 2 Die Genauigkeit von selbstberichteten Daten in den Sozial- und Verhaltenswissenschaften kann durch Antwortverzerrungen wie sozial erwünschtes Antwortverhalten beeinträchtigt werden (z. B., Krumpal, 2013; Nederhof, 1985). Forscher und Skalenentwickler erheben daher Bewertungen zur sozialen Erwünschtheit von einzelnen Items (item desirability; Edwards, 1957), beispielsweise um die Neutralität von Fragebögen zu gewährleisten, oder eine Gleichwertigkeit der Antwortalternativen in Zwangwahlaufgaben (forced-choice items) sicherzustellen (Converse et al., 2010; Hughes et al., 2021; Pavlov et al., 2021; Wetzel et al., 2021; Wood et al., 2022). Das Durchführen von Studien zur Bewertung der sozialen Erwünschtheit von Items kann jedoch zeitaufwendig und kostspielig sein, insbesondere da klare Richtlinien bezüglich der benötigten Stichprobengröße und -zusammensetzung fehlen. Diese Studie demonstriert die Fähigkeit von Transformer Encoder-Modellen, abstrakte semantische Attribute in Texten zu identifizieren. Sie demonstriert, wie ein Sentimentanalyse-Modell (XLM-roBERTa von Liu et al., 2019, modifiziert nach Barbieri et al., 2022) zur Bewertung der sozialen Erwünschtheit von Items mit Daten aus 14 unabhängigen Stichproben trainiert werden kann. Die Ergebnisse zeigen eine starke und signifikante Korrelation zwischen der menschlichen Bewertung der sozialen Erwünschtheit und der Einschätzung durch das Sprachmodell (N = 531, ρ = .80). Diskussion In dieser Dissertation werden in zwei Studien die Potenziale von Transformer-Modellen zur Bewältigung typischer Herausforderungen in der Skalenentwicklung beleuchtet. In Studie 1 wird die generative Sprachverarbeitung zur automatischen Erstellung von konstruktspezifischen Persönlichkeitsitems vorgestellt. Studie 2 hingegen legt dar, wie interpretative Sprachverarbeitung zur Bewertung der sozialen Erwünschtheit von Fragebögen auf Item-Ebene eingesetzt werden kann. Die praktische Relevanz dieser Forschung ist augenscheinlich. Die Entwicklung von Skalen ist ein aufwendiges Unterfangen, das durch eine Vielzahl an Herausforderungen geprägt ist. Aufgrund der inhärenten Unsicherheit bei der Vorhersage, welche Items in der endgültigen Version einer Skala beibehalten werden können, empfehlen etablierte Richtlinien oft, das Drei- bis Fünffache der beabsichtigten endgültigen Itemanzahl zu entwerfen (DeVellis & Thorpe, 2022, S. 98; Morey, 2013, S. 407). Die Ergebnisse der vorliegenden Dissertation bieten Forscher und Skalenentwickler eine Erweiterung des methodischen Reportoires der Testkonstruktion. Diese Arbeit knüpft in ihren theoretischen Beiträgen an die Ideen von Goldberg (1968) und Guttman (1944) an und schafft eine konzeptuelle Grundlage für psychometrische Sprachmodellierung – eine Betrachtung der wechselseitigen Beziehung zwischen Linguistik und Psychometrik im Kontext der Mannigfaltigkeits-Hypothese (manifold hypothesis; Narayanan & Mitter, 2010; Fefferman et al., 2016). Dieser Ansatz impliziert ein bi-direktionales Sprachmodell, welches in der Lage ist, psychometrische Eigenschaften allein aufgrund der sprachlichen Merkmale von Items zu bestimmen und umgekehrt, gezielt Items basierend auf vorgegebenen Parametern zu generieren.