Logo Logo
Hilfe
Kontakt
Switch language to English
Modern data science in conflict research
Modern data science in conflict research
Driven by digital communication, social media, satellite technology, and the widespread digitization of information, the past few decades have seen a dramatic increase in the volume of data that is being produced and collected every day. As a result, data science, in the form of statistical modelling, machine learning and artificial intelligence, is playing an increasingly important role across both industry and academic research. In recent years, these developments have also begun to impact and transform the field of conflict research. This thesis contributes to this transformation by utilizing modern computational methods and novel data sources to improve the analysis, forecasting and understanding of armed conflict. Part I of this thesis introduces conflict research and provides the broader context for the contributing articles. It outlines the field’s main objectives and challenges, and the potential of data science in addressing them. Following an overview of well-established conflict event databases and best practices for working with them, the first part turns to novel data sources for the field. It first introduces satellite imagery and remote sensing variables, which are derived from the former, and explores their applications in conflict research. It then discusses social media as a data source, highlighting its opportunities and limitations. Next, it provides an introduction into statistical modelling, with a particular focus on generalized additive models (GAMs), which play an important role across all contributions. This is followed by an overview on predictive modelling in the context of conflict forecasting, covering the most widely used machine learning approaches in the field. Part I closes with a summary of the contributing articles and an outlook on the future direction of the field. Part II of the thesis demonstrates how these novel data sources can be incorporated into both statistical and machine learning models for conflict. The first contribution shows how remote sensing datasets, such as landcover classifications and nighttime lights, can improve the forecasting performance of predictive models in conflict-ridden countries with limited official data sources. The second contribution employs freely available synthetic aperture radar (SAR) satellite images from the European Space Agency (ESA) to detect the destruction of buildings during war. Specifically, a technique called Interferometric SAR (InSAR) is used and combined with a non-parametric median regression and a robust statistical assessment to identify destruction and its timing at the building level. In the third contribution, the language used in tweets from Ukraine is analysed before and during the Russian invasion. Using generalized additive mixed models, the study disentangles sample effects, arising from the in- and outflux of users, from behavioural effects. It identifies a clear shift in language from Russian to Ukrainian with the outbreak of the war, primarily driven by behavioural changes of the users. In the final part of the thesis, Part III, a statistical model is proposed to capture the diffusion effects of armed conflict across space and time. Specifically, the fourth contribution develops a generalized additive model with a flexible smoothing basis over past conflict, constructed from a set of exponential decay functions with varying decay rates. The model is able to capture the long-lasting and far-reaching spatio-temporal dependencies exhibited by conflict. Further analysis shows that conflict typically breaks out in densely populated areas and from there subsequently diffuses into less populated regions., Getrieben durch digitale Kommunikation, soziale Medien, Satellitentechnologie und die umfassende Digitalisierung von Informationen hat die Datenmenge, die täglich erzeugt und gesammelt wird, in den vergangenen Jahrzehnten dramatisch zugenommen. Infolgedessen spielt Data Science, in Form von statistischer Modellierung, maschinellem Lernen und künstlicher Intelligenz, eine zunehmend wichtige Rolle sowohl in der Industrie als auch in der akademischen Forschung. In den letzten Jahren haben diese Entwicklungen auch begonnen, die Konfliktforschung zu beeinflussen und zu verändern. Diese Dissertation trägt zu diesem Wandel bei, indem moderne statistische und datenwissenschaftliche Methoden sowie neuartige Datenquellen genutzt werden, um die Analyse, Vorhersage und das Verständnis zu bewaffneten Konflikten zu verbessern. Teil I dieser Dissertation führt in die Konfliktforschung ein und liefert den übergeordneten Kontext für die Forschungsbeiträge. Es werden die zentralen Ziele und Herausforderungen des Forschungsfeldes skizziert sowie das Potenzial von Data Science zur Bewältigung dieser Herausforderungen aufgezeigt. Nach einem Überblick über etablierte Datenbanken für Konfliktereignisse und bewährte Praktiken im Umgang mit diesen, widmet sich der erste Teil neuartigen Datenquellen für die Konfliktforschung. Zunächst werden Satellitenbilder und daraus abgeleitete Fernerkundungsvariablen vorgestellt und ihre Anwendungsmöglichkeiten in der Konfliktforschung erläutert. Anschließend werden soziale Medien als Datenquelle thematisiert, wobei deren Potenziale und Grenzen diskutiert werden. Es folgt eine Einführung in die statistische Modellierung mit besonderem Fokus auf generalisierte additive Modelle (GAMs), die in allen Forschungsbeiträgen dieser Dissertation eine wichtige Rolle spielen. Im nachfolgenden Abschnitt wird ein Überblick über prädiktive Modellierung im Kontext der Konfliktvorhersage gegeben, einschließlich der am häufigsten eingesetzten maschinellen Lernverfahren in diesem Bereich. Teil I schließt mit einer Zusammenfassung der Forschungsbeiträge und einem Ausblick auf zukünftige Entwicklungen im Forschungsfeld ab. Teil II der Arbeit zeigt, wie diese neuartigen Datenquellen in statistische und maschinelle Lernmodelle für Konflikte integriert werden können. Der erste Forschungsbeitrag veranschaulicht, wie Fernerkundungsdaten, bspw. Landbedeckungsklassen und nächtliche Lichtemissionen, die Prognosegüte von Vorhersagemodellen in konfliktreichen Ländern mit begrenzten amtlichen Daten verbessern können. Der zweite Beitrag verwendet frei verfügbare Synthetic Aperture Radar (SAR) Satellitenbilder der Europäischen Weltraumorganisation (ESA), um die Zerstörung von Gebäuden während Kriegen zu erkennen. Hierzu wird eine Technik namens interferometrisches SAR (InSAR) eingesetzt und mit einer nichtparametrischen Medianregression sowie einer robusten statistischen Evaluierung kombiniert, um Zerstörung und dessen Zeitpunkt auf Gebäudeebene zu identifizieren. Im dritten Forschungsbeitrag wird die Sprachnutzung in Tweets aus der Ukraine vor und während der russischen Invasion analysiert. Unter Verwendung generalisierter additiver Mischmodelle werden Stichprobeneffekte, verursacht durch das Zu- und Abwandern von Social-Media-Nutzer:innen, von Effekten durch Verhaltungsänderungen getrennt. Die Analyse zeigt einen klaren Wechsel von Russisch zu Ukrainisch mit Ausbruch des Krieges, der hauptsächlich auf Verhaltensänderungen zurückzuführen ist. Im abschließenden Teil der Arbeit, Teil III, wird ein statistisches Modell vorgeschlagen, um die Diffusionseffekte von bewaffneten Konflikten über Raum und Zeit zu erfassen. Konkret entwickelt der vierte Beitrag ein generalisiertes additives Modell mit einer flexiblen Glättungsbasis über vergangenene Konflikte, die aus einer Vielzahl exponentieller Zerfallfunktionen mit unterschiedlichen Abnahmefaktoren besteht. Das Modell kann die langfristigen und weitreichenden räumlich-zeitlichen Abhängigkeiten, die Konflikte aufweisen, adäquat erfassen und abbilden. Weitere Analysen zeigen, dass bewaffnete Konflikte typischerweise in dicht besiedelten Gebieten ausbrechen und sich von dort aus in weniger besiedelte Regionen ausbreiten.
Armed Conflict, Statistical Modelling, Applied Machine Learning, Satellite Images, Social Media
Racek, Daniel
2025
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Racek, Daniel (2025): Modern data science in conflict research. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Racek_Daniel.pdf]
Vorschau
PDF
Racek_Daniel.pdf

29MB

Abstract

Driven by digital communication, social media, satellite technology, and the widespread digitization of information, the past few decades have seen a dramatic increase in the volume of data that is being produced and collected every day. As a result, data science, in the form of statistical modelling, machine learning and artificial intelligence, is playing an increasingly important role across both industry and academic research. In recent years, these developments have also begun to impact and transform the field of conflict research. This thesis contributes to this transformation by utilizing modern computational methods and novel data sources to improve the analysis, forecasting and understanding of armed conflict. Part I of this thesis introduces conflict research and provides the broader context for the contributing articles. It outlines the field’s main objectives and challenges, and the potential of data science in addressing them. Following an overview of well-established conflict event databases and best practices for working with them, the first part turns to novel data sources for the field. It first introduces satellite imagery and remote sensing variables, which are derived from the former, and explores their applications in conflict research. It then discusses social media as a data source, highlighting its opportunities and limitations. Next, it provides an introduction into statistical modelling, with a particular focus on generalized additive models (GAMs), which play an important role across all contributions. This is followed by an overview on predictive modelling in the context of conflict forecasting, covering the most widely used machine learning approaches in the field. Part I closes with a summary of the contributing articles and an outlook on the future direction of the field. Part II of the thesis demonstrates how these novel data sources can be incorporated into both statistical and machine learning models for conflict. The first contribution shows how remote sensing datasets, such as landcover classifications and nighttime lights, can improve the forecasting performance of predictive models in conflict-ridden countries with limited official data sources. The second contribution employs freely available synthetic aperture radar (SAR) satellite images from the European Space Agency (ESA) to detect the destruction of buildings during war. Specifically, a technique called Interferometric SAR (InSAR) is used and combined with a non-parametric median regression and a robust statistical assessment to identify destruction and its timing at the building level. In the third contribution, the language used in tweets from Ukraine is analysed before and during the Russian invasion. Using generalized additive mixed models, the study disentangles sample effects, arising from the in- and outflux of users, from behavioural effects. It identifies a clear shift in language from Russian to Ukrainian with the outbreak of the war, primarily driven by behavioural changes of the users. In the final part of the thesis, Part III, a statistical model is proposed to capture the diffusion effects of armed conflict across space and time. Specifically, the fourth contribution develops a generalized additive model with a flexible smoothing basis over past conflict, constructed from a set of exponential decay functions with varying decay rates. The model is able to capture the long-lasting and far-reaching spatio-temporal dependencies exhibited by conflict. Further analysis shows that conflict typically breaks out in densely populated areas and from there subsequently diffuses into less populated regions.

Abstract

Getrieben durch digitale Kommunikation, soziale Medien, Satellitentechnologie und die umfassende Digitalisierung von Informationen hat die Datenmenge, die täglich erzeugt und gesammelt wird, in den vergangenen Jahrzehnten dramatisch zugenommen. Infolgedessen spielt Data Science, in Form von statistischer Modellierung, maschinellem Lernen und künstlicher Intelligenz, eine zunehmend wichtige Rolle sowohl in der Industrie als auch in der akademischen Forschung. In den letzten Jahren haben diese Entwicklungen auch begonnen, die Konfliktforschung zu beeinflussen und zu verändern. Diese Dissertation trägt zu diesem Wandel bei, indem moderne statistische und datenwissenschaftliche Methoden sowie neuartige Datenquellen genutzt werden, um die Analyse, Vorhersage und das Verständnis zu bewaffneten Konflikten zu verbessern. Teil I dieser Dissertation führt in die Konfliktforschung ein und liefert den übergeordneten Kontext für die Forschungsbeiträge. Es werden die zentralen Ziele und Herausforderungen des Forschungsfeldes skizziert sowie das Potenzial von Data Science zur Bewältigung dieser Herausforderungen aufgezeigt. Nach einem Überblick über etablierte Datenbanken für Konfliktereignisse und bewährte Praktiken im Umgang mit diesen, widmet sich der erste Teil neuartigen Datenquellen für die Konfliktforschung. Zunächst werden Satellitenbilder und daraus abgeleitete Fernerkundungsvariablen vorgestellt und ihre Anwendungsmöglichkeiten in der Konfliktforschung erläutert. Anschließend werden soziale Medien als Datenquelle thematisiert, wobei deren Potenziale und Grenzen diskutiert werden. Es folgt eine Einführung in die statistische Modellierung mit besonderem Fokus auf generalisierte additive Modelle (GAMs), die in allen Forschungsbeiträgen dieser Dissertation eine wichtige Rolle spielen. Im nachfolgenden Abschnitt wird ein Überblick über prädiktive Modellierung im Kontext der Konfliktvorhersage gegeben, einschließlich der am häufigsten eingesetzten maschinellen Lernverfahren in diesem Bereich. Teil I schließt mit einer Zusammenfassung der Forschungsbeiträge und einem Ausblick auf zukünftige Entwicklungen im Forschungsfeld ab. Teil II der Arbeit zeigt, wie diese neuartigen Datenquellen in statistische und maschinelle Lernmodelle für Konflikte integriert werden können. Der erste Forschungsbeitrag veranschaulicht, wie Fernerkundungsdaten, bspw. Landbedeckungsklassen und nächtliche Lichtemissionen, die Prognosegüte von Vorhersagemodellen in konfliktreichen Ländern mit begrenzten amtlichen Daten verbessern können. Der zweite Beitrag verwendet frei verfügbare Synthetic Aperture Radar (SAR) Satellitenbilder der Europäischen Weltraumorganisation (ESA), um die Zerstörung von Gebäuden während Kriegen zu erkennen. Hierzu wird eine Technik namens interferometrisches SAR (InSAR) eingesetzt und mit einer nichtparametrischen Medianregression sowie einer robusten statistischen Evaluierung kombiniert, um Zerstörung und dessen Zeitpunkt auf Gebäudeebene zu identifizieren. Im dritten Forschungsbeitrag wird die Sprachnutzung in Tweets aus der Ukraine vor und während der russischen Invasion analysiert. Unter Verwendung generalisierter additiver Mischmodelle werden Stichprobeneffekte, verursacht durch das Zu- und Abwandern von Social-Media-Nutzer:innen, von Effekten durch Verhaltungsänderungen getrennt. Die Analyse zeigt einen klaren Wechsel von Russisch zu Ukrainisch mit Ausbruch des Krieges, der hauptsächlich auf Verhaltensänderungen zurückzuführen ist. Im abschließenden Teil der Arbeit, Teil III, wird ein statistisches Modell vorgeschlagen, um die Diffusionseffekte von bewaffneten Konflikten über Raum und Zeit zu erfassen. Konkret entwickelt der vierte Beitrag ein generalisiertes additives Modell mit einer flexiblen Glättungsbasis über vergangenene Konflikte, die aus einer Vielzahl exponentieller Zerfallfunktionen mit unterschiedlichen Abnahmefaktoren besteht. Das Modell kann die langfristigen und weitreichenden räumlich-zeitlichen Abhängigkeiten, die Konflikte aufweisen, adäquat erfassen und abbilden. Weitere Analysen zeigen, dass bewaffnete Konflikte typischerweise in dicht besiedelten Gebieten ausbrechen und sich von dort aus in weniger besiedelte Regionen ausbreiten.