Logo Logo
Hilfe
Kontakt
Switch language to English
Machine-actionable assessment of research data products
Machine-actionable assessment of research data products
Research data management is a relevant topic for academic research which is why many concepts and technologies emerge to face the challenges involved, such as data growth, reproducibility, or heterogeneity of tools, services, and standards. The basic concept of research data management is a research data product; it has three dimensions: the data, the metadata describing them, and the services providing both. Traditionally, the assessment of a research data product has been carried out either manually via peer-review by human experts or automated by counting certain events. We present a novel mechanism to assess research data products. The current state-of-the-art of machine-actionable assessment of research data products is based on the assumption that its quality, impact, or relevance are linked to the likeliness of peers or others to interact with it: event-based metrics include counting citations, social media interactions, or usage statistics. The shortcomings of event-based metrics are systematically discussed in this thesis; they include dependance on the date of publication and the impact of social effects. In contrast to event-based metrics benchmarks for research data products simulate technical interactions with a research data product and check its compliance with best practices. Benchmarks operate on the assumption that the effort invested in producing a research data product increases the chances that its quality, impact, or relevance are high. This idea is translated into a software architecture and a step-by-step approach to create benchmarks based on it. For a proof-of-concept we use a prototypical benchmark on more than 795,000 research data products deposited at the Zenodo repository to showcase its effectiveness, even with many research data products. A comparison of the benchmark’s scores with event-based metrics indicate that benchmarks have the potential to complement event-based metrics and that both weakly correlate under certain circumstances. These findings provide the methodological basis for a new tool to answer scientometric questions and to support decision-making in the distribution of sparse resources. Future research can further explore those aspects of benchmarks that allow to improve the reproducibility of scientific findings., Dass das Management von Forschungsdaten ein relevantes Thema ist, zeigt sich an der Vielzahl an konzeptioneller und technischer Antworten auf die damit einhergehenden Herausforderungen, wie z.B. Datenwachstum, Reproduzierbarkeit oder Heterogenität der genutzten Tools, Dienste und Standards. Das Forschungsdatenprodukt ist in diesem Kontext ein grundlegender, dreiteilig aufgebauter Begriff: Daten, Metadaten und Dienste, die Zugriffe auf die beiden vorgenannten Komponenten ermöglichen. Die Beurteilung eines Forschungsdatenprodukts ist bisher händisch durch den Peer Review oder durch das Zählen von bestimmten Ereignissen realisiert. Der heutige Stand der Technik, um automatisiert Qualität, Impact oder Relevanz eines Forschungsdatenprodukts zu beurteilen, basiert auf der Annahme, dass diese drei Eigenschaften mit der Wahrscheinlichkeit von Interaktionen korrelieren. Event-basierte Metriken umfassen das Zählen von Zitationen, Interaktionen auf sozialen Medien oder technische Zugriffe. Defizite solcher Metriken werden in dieser Arbeit systematisch erörtert; besonderes Augenmerk wird dabei auf deren Zeitabhängigkeit und den Einfluss sozialer Mechanismen gelegt. Benchmarks sind Programme, die Interaktionen mit einem Forschungsdatenprodukt simulieren und dabei die Einhaltung guter Praxis prüfen. Benchmarks operieren auf der Annahme, dass der Aufwand, der in die Erzeugung und Wartung von Forschungsdatenprodukte investiert wurde, mit deren Qualität, Impact und Relevanz korreliert. Diese Idee wird in dieser Arbeit in eine Software-Architektur gegossen, für deren Implementierung geeignete Hilfsmittel bereitgestellt werden. Ein prototypischer Benchmark wird auf mehr als 795.000 Datensätzen des Zenodo Repositorys evaluiert, um die Effektivität der Architektur zu demonstrieren.Ein Vergleich zwischen Benchmark Scores und event-basierten Metriken legt nahe, dass beide unter bestimmten Umständen schwach korrelieren. Dieses Ergebnis rechtfertigt den Einsatz von Benchmarks als neues szientrometrisches Tool und als Entscheidungshilfe in der Verteilung knapper Ressourcen. Der Einsatz von Benchmarks in der Sicherstellung von reproduzierbaren wissenschaftlichen Erkenntnissen ist ein vielversprechender Gegenstand zukünftiger Forschung.
Not available
Weber, Tobias
2021
Englisch
Universitätsbibliothek der Ludwig-Maximilians-Universität München
Weber, Tobias (2021): Machine-actionable assessment of research data products. Dissertation, LMU München: Fakultät für Mathematik, Informatik und Statistik
[thumbnail of Weber_Tobias.pdf]
Vorschau
PDF
Weber_Tobias.pdf

1MB

Abstract

Research data management is a relevant topic for academic research which is why many concepts and technologies emerge to face the challenges involved, such as data growth, reproducibility, or heterogeneity of tools, services, and standards. The basic concept of research data management is a research data product; it has three dimensions: the data, the metadata describing them, and the services providing both. Traditionally, the assessment of a research data product has been carried out either manually via peer-review by human experts or automated by counting certain events. We present a novel mechanism to assess research data products. The current state-of-the-art of machine-actionable assessment of research data products is based on the assumption that its quality, impact, or relevance are linked to the likeliness of peers or others to interact with it: event-based metrics include counting citations, social media interactions, or usage statistics. The shortcomings of event-based metrics are systematically discussed in this thesis; they include dependance on the date of publication and the impact of social effects. In contrast to event-based metrics benchmarks for research data products simulate technical interactions with a research data product and check its compliance with best practices. Benchmarks operate on the assumption that the effort invested in producing a research data product increases the chances that its quality, impact, or relevance are high. This idea is translated into a software architecture and a step-by-step approach to create benchmarks based on it. For a proof-of-concept we use a prototypical benchmark on more than 795,000 research data products deposited at the Zenodo repository to showcase its effectiveness, even with many research data products. A comparison of the benchmark’s scores with event-based metrics indicate that benchmarks have the potential to complement event-based metrics and that both weakly correlate under certain circumstances. These findings provide the methodological basis for a new tool to answer scientometric questions and to support decision-making in the distribution of sparse resources. Future research can further explore those aspects of benchmarks that allow to improve the reproducibility of scientific findings.

Abstract

Dass das Management von Forschungsdaten ein relevantes Thema ist, zeigt sich an der Vielzahl an konzeptioneller und technischer Antworten auf die damit einhergehenden Herausforderungen, wie z.B. Datenwachstum, Reproduzierbarkeit oder Heterogenität der genutzten Tools, Dienste und Standards. Das Forschungsdatenprodukt ist in diesem Kontext ein grundlegender, dreiteilig aufgebauter Begriff: Daten, Metadaten und Dienste, die Zugriffe auf die beiden vorgenannten Komponenten ermöglichen. Die Beurteilung eines Forschungsdatenprodukts ist bisher händisch durch den Peer Review oder durch das Zählen von bestimmten Ereignissen realisiert. Der heutige Stand der Technik, um automatisiert Qualität, Impact oder Relevanz eines Forschungsdatenprodukts zu beurteilen, basiert auf der Annahme, dass diese drei Eigenschaften mit der Wahrscheinlichkeit von Interaktionen korrelieren. Event-basierte Metriken umfassen das Zählen von Zitationen, Interaktionen auf sozialen Medien oder technische Zugriffe. Defizite solcher Metriken werden in dieser Arbeit systematisch erörtert; besonderes Augenmerk wird dabei auf deren Zeitabhängigkeit und den Einfluss sozialer Mechanismen gelegt. Benchmarks sind Programme, die Interaktionen mit einem Forschungsdatenprodukt simulieren und dabei die Einhaltung guter Praxis prüfen. Benchmarks operieren auf der Annahme, dass der Aufwand, der in die Erzeugung und Wartung von Forschungsdatenprodukte investiert wurde, mit deren Qualität, Impact und Relevanz korreliert. Diese Idee wird in dieser Arbeit in eine Software-Architektur gegossen, für deren Implementierung geeignete Hilfsmittel bereitgestellt werden. Ein prototypischer Benchmark wird auf mehr als 795.000 Datensätzen des Zenodo Repositorys evaluiert, um die Effektivität der Architektur zu demonstrieren.Ein Vergleich zwischen Benchmark Scores und event-basierten Metriken legt nahe, dass beide unter bestimmten Umständen schwach korrelieren. Dieses Ergebnis rechtfertigt den Einsatz von Benchmarks als neues szientrometrisches Tool und als Entscheidungshilfe in der Verteilung knapper Ressourcen. Der Einsatz von Benchmarks in der Sicherstellung von reproduzierbaren wissenschaftlichen Erkenntnissen ist ein vielversprechender Gegenstand zukünftiger Forschung.