Logo Logo
Hilfe
Kontakt
Switch language to English
Explaining the impact of data characteristics on process mining algorithms
Explaining the impact of data characteristics on process mining algorithms
Process mining enables us to extract critical insights from event data, which consists of records of process executions. Nevertheless, the trustworthiness of its findings is threatened by a central challenge: A lack of a standardized, comprehensive evaluation framework for process mining algorithms. Since the set of real datasets is limited and access to real event data is scarce, a common practice is to evaluate algorithms on simplified, selective datasets. Such analyses fail not only to accurately assess algorithm results but also to capture the impact of key data characteristics, such as complexity, incompleteness, and statistical irregularities, on evaluation measures. Therefore, we require new robust evaluation methods that return valid and reliable results. This thesis addresses this critical gap by developing a data-driven methodology to systematically quantify the impact of data characteristics on process mining methods beyond single datasets. Three focus areas, Data Characterization, Bias Mitigation, and Experimentation, connect the contributions of this doctoral thesis: First, we establish a foundation for robust data representation through structure-aware data characterization. Our paper on Structure-Aware Principal Component Analysis for ordered data (DROPP) addresses preserving intrinsic structural characteristics in dimensionality reduction by incorporating order, enabling an explainable visual comparison of datasets with low reconstruction errors and good compression. For event data, we introduce FEEED (Feature Extraction from Event Data), a domain-agnostic approach for extracting interpretable meta-features from event logs at multiple granularities, enabling reproducible measurement and categorization of event data characteristics. Second, to mitigate representational bias, we introduce frameworks for Generating Event Data Intentionally (GEDI). GEDI and its interactive extension, iGEDI, enable process miners to generate event data with intentional meta-features, addressing the scarcity and lack of diversity in existing benchmarks. This work is extended by Know Your Streams, which conceptualizes, characterizes, and generates intentional event streams to address validity concerns in online process mining evaluations. Finally, we provide an empirical method for measuring and explaining the impact of characteristics on process mining algorithms. The SHAining on Process Mining approach operationalizes explainability using Shapley Value analysis to systematically quantify how individual and interacting event data feature values impact core process discovery metrics, such as fitness, precision, and F-score for an underlying data-generating process. The applicability of our framework, demonstrated on the process discovery task, spans major algorithmic design paradigms, such as top-down vs. bottom-up, as well as various event data types, providing interpretable insights into the robustness and associated trade-offs of process mining algorithms. Together, the papers present a comprehensive methodology for empirical evaluation in Process Mining, advancing the field toward more reproducible, valid, and generalizable research. By systematically linking data characteristics, algorithm behavior, and evaluation metrics, this thesis provides a valuable tool for researchers and practitioners to better understand and trust the results generated by their process mining tools. All methods presented in this thesis are provided in our open-source packages and respective repositories., Process Mining ermöglicht es uns, wichtige Erkenntnisse aus Ereignisdaten zu gewinnen, die in Aufzeichnungen von Prozessausführungen enthalten sind. Die Zuverlässigkeit der Ergebnisse wird jedoch durch eine zentrale Herausforderung beeinträchtigt: Es fehlt ein standardisierter, umfassender Bewertungsrahmen für Process-Mining-Algorithmen. Da nicht nur die Menge der realen Datensätze begrenzt ist, sondern auch der Zugang zu realen Ereignisdaten rar ist, ist es gängige Praxis, Algorithmen anhand vereinfachter, selektiver Datensätze zu bewerten. Solche Analysen versagen nicht nur bei der präzisen Bewertung der Algorithmusergebnisse, sondern auch bei der Erfassung der Auswirkungen wichtiger Datenmerkmale wie Komplexität, Unvollständigkeit und statistische Unregelmäßigkeiten auf die Bewertungsmaßnahmen. Daher benötigen wir neue robuste Bewertungsmethoden, die valide und zuverlässige Ergebnisse liefern. Diese Arbeit befasst sich mit dieser kritischen Lücke, indem sie eine datengesteuerte Methodik entwickelt, um den Einfluss von Datenmerkmalen auf Process-Mining-Methoden über einzelne Datensätze hinaus hinweg systematisch zu quantifizieren. Drei Schwerpunktbereiche, Datencharakterisierung, Bias-Minderung und Experimentieren, verbinden die Beiträge dieser Doktorarbeit: Zunächst schaffen wir durch eine strukturbewusste Datencharakterisierung eine Grundlage für eine robuste Datendarstellung. Unsere Arbeit zum Thema Strukturbewusste Hauptkomponentenanalyse für geordnete Daten (DROPP) befasst sich mit der Erhaltung intrinsischer Strukturmerkmale bei der Dimensionsreduktion durch die Einbeziehung der Reihenfolge, was einen erklärbaren visuellen Vergleich von Datensätzen mit geringen Rekonstruktionsfehlern sowie eine gute Komprimierung ermöglicht. Für Ereignisdaten führen wir FEEED: Feature Extraction from Event Data ein, einen domänenunabhängigen Ansatz zur Extraktion interpretierbarer Metafunktionen aus Ereignisprotokollen mit mehreren Granularitäten, der die reproduzierbare Messung und Kategorisierung von Ereignisdatenmerkmalen ermöglicht. Zweitens führen wir zur Bekämpfung von Darstellungsverzerrungen Frameworks für Generating Event Data Intentionally (GEDI) ein. GEDI und die interaktive Erweiterung iGEDI ermöglichen Ereignisdaten mit absichtlichen Metamerkmalen zu generieren, wodurch die Knappheit und mangelnde Vielfalt bestehender Benchmarks behoben werden. Diese Arbeit wird durch Know Your Streams erweitert, das absichtliche Ereignisströme konzeptualisiert, charakterisiert und generiert, um Validitätsprobleme bei der Bewertung des Echtzeit-Process-Minings zu beheben. Schließlich bieten wir eine empirische Methode zur Messung und Erklärung der Auswirkungen von Merkmalen auf die Process-Mining-Algorithmen. Der Ansatz SHAining on Process Mining operationalisiert die Erklärbarkeit mithilfe der Shapley-Wert-Analyse, um systematisch zu quantifizieren, wie sich die Werte einzelner und interagierender Ereignisdaten auf zentrale Prozesserkennungsmetriken wie Fitness, Präzision und F-Score für einen zugrunde liegenden datengenerierenden Prozess auswirken. Die Anwendbarkeit unseres Frameworks, die anhand der Prozesserkennungsaufgabe demonstriert wird, erstreckt sich auf wichtige algorithmische Designparadigmen wie Top-down vs. Bottom-up sowie auf verschiedene Ereignisdatentypen und liefert interpretierbare Einblicke in die Robustheit von Process-Mining-Algorithmen sowie in die damit verbundenen Abwägungen. Zusammen bieten die vorgestellten Arbeiten eine umfassende Methodik für die empirische Bewertung im Process Mining und bringen das Fachgebiet in Richtung reproduzierbarer, valider und verallgemeinerbarer Forschung. Durch die systematische Verknüpfung von Datenmerkmalen, Algorithmusverhalten und Bewertungsmetriken bietet diese Arbeit ein wertvolles Werkzeug für Forschende und Praktikende, um die von ihren Process-Mining-Werkzeugen generierten Ergebnisse besser zu verstehen und ihnen mehr Vertrauen entgegenzubringen. Alle in dieser Arbeit vorgestellten Methoden sind in unseren Open-Source-Paketen und entsprechenden Repositorien verfügbar., La minería de procesos nos permite extraer información crítica a partir de los datos de eventos, que consisten en registros de ejecución de procesos. Sin embargo, la fiabilidad de sus resultados se ve amenazada por un reto fundamental: La falta de un marco de evaluación estandarizado y completo para los algoritmos de minería de procesos. Dado que no solo el conjunto de datos reales es limitado, sino que también el acceso a datos de eventos reales es escaso, una práctica habitual consiste en evaluar los algoritmos con conjuntos de datos simplificados y selectivos. Estos análisis no solo no evalúan con precisión los resultados de los algoritmos, sino que tampoco captan el impacto de las características clave de los datos, como la complejidad, la incompletitud y las irregularidades estadísticas, en las medidas de evaluación. Por lo tanto, necesitamos nuevos métodos de evaluación robustos que arrojen resultados válidos y fiables. Esta tesis doctoral aborda esta brecha crítica mediante el desarrollo de una metodología basada en datos para cuantificar de manera sistemática el impacto de las características de los datos en los métodos de minería de procesos, más allá de los conjuntos de datos individuales. Tres focos de interés, Caracterización de datos, Mitigación de sesgos y Experimentación, conectan las contribuciones de esta tesis doctoral: En primer lugar, establecemos una base para la representación robusta de datos mediante la caracterización consciente de la estructura de los datos. Nuestro artículo sobre Análisis de Componentes Principales con Reconocimiento de Estructura para Datos Ordenados (DROPP) aborda la conservación de las características estructurales intrínsecas en la reducción de dimensionalidad. Lo hace mediante la incorporación del orden, lo que permiten una comparación visual explicable de conjuntos de datos con bajos errores de reconstrucción y una buena compresión. Para los datos de eventos, presentamos FEEED: Extracción de Características de Datos de Eventos, un enfoque independiente del dominio para extraer metacaracterísticas interpretables a partir de registros de eventos con múltiples granularidades. Esto permite la medición y la categorización reproducibles de las características de los datos de eventos. En segundo lugar, para combatir el sesgo representacional, presentamos marcos para la Generación Intencionada de Datos de Eventos (GEDI). GEDI y su extensión interactiva, iGEDI, permiten generar datos de eventos con metacaracterísticas intencionales, abordando la escasez y la falta de diversidad en los puntos de referencia existentes. Este trabajo se amplía con Know Your Streams, que conceptualiza, caracteriza y genera flujos de eventos intencionales para abordar cuestiones de validez en las evaluaciones de minería de procesos en línea. Por último, proporcionamos un método empírico para medir y explicar el impacto de las características en los algoritmos de minería de procesos. El enfoque SHAining on Process Mining pone en práctica la explicabilidad utilizando el análisis del Valor de Shapley. Así, cuantificamos sistemáticamente cómo los valores de las características de los datos de eventos, individuales e interactivos afectan las métricas básicas de descubrimiento de procesos, como la aptitud, la precisión y la puntuación F para un proceso subyacente de generación de datos. La aplicabilidad de nuestro marco, demostrada en la tarea de descubrimiento de procesos, abarca los principales paradigmas de diseño algorítmico, como el enfoque ascendente frente al descendente, así como diversos tipos de datos de eventos. Esto proporciona información interpretable sobre la solidez de los algoritmos de minería de procesos y de las compensaciones asociadas. En conjunto, las publicaciones presentadas proporcionan una metodología completa para la evaluación empírica en la minería de procesos, lo que permite que este campo avance hacia una investigación más reproducible, válida y generalizable. Al vincular sistemáticamente las características de los datos, el comportamiento de los algoritmos y las métricas de evaluación, esta tesis proporciona una herramienta valiosa para que personas, que trabajan en la industria o investigación, comprendan mejor y puedan confiar en los resultados generados por sus herramientas de minería de procesos. Todos los métodos presentados en esta tesis se proporcionan en nuestros paquetes de código abierto y en sus respectivos repositorios.
Not available
Maldonado Hernández, Andrea
2025
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Maldonado Hernández, Andrea (2025): Explaining the impact of data characteristics on process mining algorithms. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of maldonado_andrea.pdf]
Vorschau
PDF
maldonado_andrea.pdf

10MB

Abstract

Process mining enables us to extract critical insights from event data, which consists of records of process executions. Nevertheless, the trustworthiness of its findings is threatened by a central challenge: A lack of a standardized, comprehensive evaluation framework for process mining algorithms. Since the set of real datasets is limited and access to real event data is scarce, a common practice is to evaluate algorithms on simplified, selective datasets. Such analyses fail not only to accurately assess algorithm results but also to capture the impact of key data characteristics, such as complexity, incompleteness, and statistical irregularities, on evaluation measures. Therefore, we require new robust evaluation methods that return valid and reliable results. This thesis addresses this critical gap by developing a data-driven methodology to systematically quantify the impact of data characteristics on process mining methods beyond single datasets. Three focus areas, Data Characterization, Bias Mitigation, and Experimentation, connect the contributions of this doctoral thesis: First, we establish a foundation for robust data representation through structure-aware data characterization. Our paper on Structure-Aware Principal Component Analysis for ordered data (DROPP) addresses preserving intrinsic structural characteristics in dimensionality reduction by incorporating order, enabling an explainable visual comparison of datasets with low reconstruction errors and good compression. For event data, we introduce FEEED (Feature Extraction from Event Data), a domain-agnostic approach for extracting interpretable meta-features from event logs at multiple granularities, enabling reproducible measurement and categorization of event data characteristics. Second, to mitigate representational bias, we introduce frameworks for Generating Event Data Intentionally (GEDI). GEDI and its interactive extension, iGEDI, enable process miners to generate event data with intentional meta-features, addressing the scarcity and lack of diversity in existing benchmarks. This work is extended by Know Your Streams, which conceptualizes, characterizes, and generates intentional event streams to address validity concerns in online process mining evaluations. Finally, we provide an empirical method for measuring and explaining the impact of characteristics on process mining algorithms. The SHAining on Process Mining approach operationalizes explainability using Shapley Value analysis to systematically quantify how individual and interacting event data feature values impact core process discovery metrics, such as fitness, precision, and F-score for an underlying data-generating process. The applicability of our framework, demonstrated on the process discovery task, spans major algorithmic design paradigms, such as top-down vs. bottom-up, as well as various event data types, providing interpretable insights into the robustness and associated trade-offs of process mining algorithms. Together, the papers present a comprehensive methodology for empirical evaluation in Process Mining, advancing the field toward more reproducible, valid, and generalizable research. By systematically linking data characteristics, algorithm behavior, and evaluation metrics, this thesis provides a valuable tool for researchers and practitioners to better understand and trust the results generated by their process mining tools. All methods presented in this thesis are provided in our open-source packages and respective repositories.

Abstract

Process Mining ermöglicht es uns, wichtige Erkenntnisse aus Ereignisdaten zu gewinnen, die in Aufzeichnungen von Prozessausführungen enthalten sind. Die Zuverlässigkeit der Ergebnisse wird jedoch durch eine zentrale Herausforderung beeinträchtigt: Es fehlt ein standardisierter, umfassender Bewertungsrahmen für Process-Mining-Algorithmen. Da nicht nur die Menge der realen Datensätze begrenzt ist, sondern auch der Zugang zu realen Ereignisdaten rar ist, ist es gängige Praxis, Algorithmen anhand vereinfachter, selektiver Datensätze zu bewerten. Solche Analysen versagen nicht nur bei der präzisen Bewertung der Algorithmusergebnisse, sondern auch bei der Erfassung der Auswirkungen wichtiger Datenmerkmale wie Komplexität, Unvollständigkeit und statistische Unregelmäßigkeiten auf die Bewertungsmaßnahmen. Daher benötigen wir neue robuste Bewertungsmethoden, die valide und zuverlässige Ergebnisse liefern. Diese Arbeit befasst sich mit dieser kritischen Lücke, indem sie eine datengesteuerte Methodik entwickelt, um den Einfluss von Datenmerkmalen auf Process-Mining-Methoden über einzelne Datensätze hinaus hinweg systematisch zu quantifizieren. Drei Schwerpunktbereiche, Datencharakterisierung, Bias-Minderung und Experimentieren, verbinden die Beiträge dieser Doktorarbeit: Zunächst schaffen wir durch eine strukturbewusste Datencharakterisierung eine Grundlage für eine robuste Datendarstellung. Unsere Arbeit zum Thema Strukturbewusste Hauptkomponentenanalyse für geordnete Daten (DROPP) befasst sich mit der Erhaltung intrinsischer Strukturmerkmale bei der Dimensionsreduktion durch die Einbeziehung der Reihenfolge, was einen erklärbaren visuellen Vergleich von Datensätzen mit geringen Rekonstruktionsfehlern sowie eine gute Komprimierung ermöglicht. Für Ereignisdaten führen wir FEEED: Feature Extraction from Event Data ein, einen domänenunabhängigen Ansatz zur Extraktion interpretierbarer Metafunktionen aus Ereignisprotokollen mit mehreren Granularitäten, der die reproduzierbare Messung und Kategorisierung von Ereignisdatenmerkmalen ermöglicht. Zweitens führen wir zur Bekämpfung von Darstellungsverzerrungen Frameworks für Generating Event Data Intentionally (GEDI) ein. GEDI und die interaktive Erweiterung iGEDI ermöglichen Ereignisdaten mit absichtlichen Metamerkmalen zu generieren, wodurch die Knappheit und mangelnde Vielfalt bestehender Benchmarks behoben werden. Diese Arbeit wird durch Know Your Streams erweitert, das absichtliche Ereignisströme konzeptualisiert, charakterisiert und generiert, um Validitätsprobleme bei der Bewertung des Echtzeit-Process-Minings zu beheben. Schließlich bieten wir eine empirische Methode zur Messung und Erklärung der Auswirkungen von Merkmalen auf die Process-Mining-Algorithmen. Der Ansatz SHAining on Process Mining operationalisiert die Erklärbarkeit mithilfe der Shapley-Wert-Analyse, um systematisch zu quantifizieren, wie sich die Werte einzelner und interagierender Ereignisdaten auf zentrale Prozesserkennungsmetriken wie Fitness, Präzision und F-Score für einen zugrunde liegenden datengenerierenden Prozess auswirken. Die Anwendbarkeit unseres Frameworks, die anhand der Prozesserkennungsaufgabe demonstriert wird, erstreckt sich auf wichtige algorithmische Designparadigmen wie Top-down vs. Bottom-up sowie auf verschiedene Ereignisdatentypen und liefert interpretierbare Einblicke in die Robustheit von Process-Mining-Algorithmen sowie in die damit verbundenen Abwägungen. Zusammen bieten die vorgestellten Arbeiten eine umfassende Methodik für die empirische Bewertung im Process Mining und bringen das Fachgebiet in Richtung reproduzierbarer, valider und verallgemeinerbarer Forschung. Durch die systematische Verknüpfung von Datenmerkmalen, Algorithmusverhalten und Bewertungsmetriken bietet diese Arbeit ein wertvolles Werkzeug für Forschende und Praktikende, um die von ihren Process-Mining-Werkzeugen generierten Ergebnisse besser zu verstehen und ihnen mehr Vertrauen entgegenzubringen. Alle in dieser Arbeit vorgestellten Methoden sind in unseren Open-Source-Paketen und entsprechenden Repositorien verfügbar.

Abstract

La minería de procesos nos permite extraer información crítica a partir de los datos de eventos, que consisten en registros de ejecución de procesos. Sin embargo, la fiabilidad de sus resultados se ve amenazada por un reto fundamental: La falta de un marco de evaluación estandarizado y completo para los algoritmos de minería de procesos. Dado que no solo el conjunto de datos reales es limitado, sino que también el acceso a datos de eventos reales es escaso, una práctica habitual consiste en evaluar los algoritmos con conjuntos de datos simplificados y selectivos. Estos análisis no solo no evalúan con precisión los resultados de los algoritmos, sino que tampoco captan el impacto de las características clave de los datos, como la complejidad, la incompletitud y las irregularidades estadísticas, en las medidas de evaluación. Por lo tanto, necesitamos nuevos métodos de evaluación robustos que arrojen resultados válidos y fiables. Esta tesis doctoral aborda esta brecha crítica mediante el desarrollo de una metodología basada en datos para cuantificar de manera sistemática el impacto de las características de los datos en los métodos de minería de procesos, más allá de los conjuntos de datos individuales. Tres focos de interés, Caracterización de datos, Mitigación de sesgos y Experimentación, conectan las contribuciones de esta tesis doctoral: En primer lugar, establecemos una base para la representación robusta de datos mediante la caracterización consciente de la estructura de los datos. Nuestro artículo sobre Análisis de Componentes Principales con Reconocimiento de Estructura para Datos Ordenados (DROPP) aborda la conservación de las características estructurales intrínsecas en la reducción de dimensionalidad. Lo hace mediante la incorporación del orden, lo que permiten una comparación visual explicable de conjuntos de datos con bajos errores de reconstrucción y una buena compresión. Para los datos de eventos, presentamos FEEED: Extracción de Características de Datos de Eventos, un enfoque independiente del dominio para extraer metacaracterísticas interpretables a partir de registros de eventos con múltiples granularidades. Esto permite la medición y la categorización reproducibles de las características de los datos de eventos. En segundo lugar, para combatir el sesgo representacional, presentamos marcos para la Generación Intencionada de Datos de Eventos (GEDI). GEDI y su extensión interactiva, iGEDI, permiten generar datos de eventos con metacaracterísticas intencionales, abordando la escasez y la falta de diversidad en los puntos de referencia existentes. Este trabajo se amplía con Know Your Streams, que conceptualiza, caracteriza y genera flujos de eventos intencionales para abordar cuestiones de validez en las evaluaciones de minería de procesos en línea. Por último, proporcionamos un método empírico para medir y explicar el impacto de las características en los algoritmos de minería de procesos. El enfoque SHAining on Process Mining pone en práctica la explicabilidad utilizando el análisis del Valor de Shapley. Así, cuantificamos sistemáticamente cómo los valores de las características de los datos de eventos, individuales e interactivos afectan las métricas básicas de descubrimiento de procesos, como la aptitud, la precisión y la puntuación F para un proceso subyacente de generación de datos. La aplicabilidad de nuestro marco, demostrada en la tarea de descubrimiento de procesos, abarca los principales paradigmas de diseño algorítmico, como el enfoque ascendente frente al descendente, así como diversos tipos de datos de eventos. Esto proporciona información interpretable sobre la solidez de los algoritmos de minería de procesos y de las compensaciones asociadas. En conjunto, las publicaciones presentadas proporcionan una metodología completa para la evaluación empírica en la minería de procesos, lo que permite que este campo avance hacia una investigación más reproducible, válida y generalizable. Al vincular sistemáticamente las características de los datos, el comportamiento de los algoritmos y las métricas de evaluación, esta tesis proporciona una herramienta valiosa para que personas, que trabajan en la industria o investigación, comprendan mejor y puedan confiar en los resultados generados por sus herramientas de minería de procesos. Todos los métodos presentados en esta tesis se proporcionan en nuestros paquetes de código abierto y en sus respectivos repositorios.