Anforderungen an Daten
Erstellt am: 18.11.2024 | Stand des Wissens: 18.11.2024
Synthesebericht gehört zu:
Eine zielgerichtete Nutzung von Daten setzt voraus, dass diese bestimmte Anforderungen erfüllen. Dabei spielt der Anwendungskontext eine entscheidende Rolle. In diesem Kontext sind die Qualität und Validität der Daten sowie die Einhaltung von Konventionen bezüglich Standardformaten und Metadaten essenziell.
Die Qualität von Daten kann anhand verschiedener Kriterien definiert und bestimmt werden. Die Einschätzung zur Qualität der Daten hängt stark vom Nutzungskontext ab. Grundsätzlich spielt die Aktualität der erhobenen Daten in den meisten Anwendungsfällen eine zentrale Rolle. Denn je aktueller die verarbeiteten Daten sind, desto höher sollte die Anwendbarkeit und Repräsentativität der Daten sein. Andererseits können disruptive Ereignisse wie die COVID-19-Pandemie dazu führen, dass die aktuellsten Daten ein verzerrtes Bild zeichnen. Dann stellt sich die Frage, vor allem wenn es sich um Daten einer Zeitreihenerhebung handelt, ob Ausreißer für eine Auswertung verwendet werden sollten oder ob ältere Daten eine geeignetere Wahl als Auswertungsgrundlage darstellen. Werden Ausreißer verwendet, sollte immer ein entsprechender Hinweis dazu erfolgen.
Ein weiterer wichtiger Gesichtspunkt betrifft die Validität von Daten. Die Validität ist ein Gütekriterium und beschreibt den Grad der Genauigkeit, mit dem ein zu messendes Merkmal auch tatsächlich gemessen wird. In empirischen Studien, in denen Ursache-Wirkungs-Zusammenhänge untersucht werden, ist die Validität von Aussagen über Kausalzusammenhänge entscheidend. Die Validität wird in diesem Zusammenhang in die Aspekte der statistischen, der internen und der externen Validität unterteilt. Man spricht von einer hohen statistischen Validität, wenn die Reliabilität und Teststärke hoch, und die Fehlervarianz gering ausfallen. Die interne Validität fällt hoch aus, wenn für identifizierte Ursache-Wirkungs-Zusammenhänge andere Erklärungen ausgeschlossen werden können. Die externe Validität beschreibt die Allgemeingültigkeit von Erkenntnissen aus empirischen Studien. Die externe Validität ist hoch, wenn sich Ergebnisse aus einer Studie auf die Allgemeinheit übertragen lassen. Die externe Validität erhöht sich, wenn Erhebungen mit anderen Studienteilnehmern wiederholt werden und die vorher gewonnenen Ergebnisse bestätigt werden.
Eine weitere Qualitätsanforderung betrifft die Erhebung von Daten in Zeitreihen. Um eine Kontinuität und eine Auswertung von Daten im Zeitverlauf vornehmen zu können, ist es essenziell, die Erhebungsmethodik möglichst unverändert zu lassen. Dies kann eine Herausforderung darstellen, wenn der Erhebungsdatensatz in neuen Auswertungskontexten verwendet werden soll. So zum Beispiel, wenn neben dem allgemeinen Mobilitätsverhalten Aussagen zur Nutzung von Lastenrädern interessieren. In solchen Fällen muss der Fragenkatalog um entsprechende Fragen erweitert werden. Dadurch wächst der Umfang der Befragungsunterlagen und damit die Antwortlast beim Befragten. Es muss abgewogen werden, ob für das Hinzunehmen neuer Fragenkomplexe vorhandene Fragen gestrichen werden können. Man reduziert dadurch wieder die Antwortlast, nimmt jedoch in Kauf, dass zu einzelnen Aspekten keine neuen Daten mehr erhoben werden. Beobachtungen und Auswertungen über den Zeitverlauf brechen somit ab. Eine zu hohe Antwortlast kann dazu führen, dass die Teilnahme an der Befragung abgebrochen oder, im schlimmsten Fall, gar nicht erst begonnen wird. Der Rücklauf verringert sich und damit die Aussagekraft von Erhebungen.
Ein weiterer Aspekt bezüglich der Anforderungen an Daten ist, dass erhobene Daten in geeigneten Standarddatenformaten vorliegen sollten. Das schließt sowohl einheitliche Dateiformate als auch Konventionen für einzelne Werte (zum Beispiel Datumsformate oder Zeichennutzung) ein. Nur so ist gewährleistet, dass eine Verarbeitung und Auswertung der Daten mit vertretbarem Aufwand durchgeführt werden können, um eine Interoperabilität zwischen verschiedenen Schnittstellen erreichen zu können.
Neben den aufgeführten Qualitätsanforderungen müssen Informationen über die Daten vorliegen, sogenannte Metadaten. Zum einen sind die Informationen dazu wichtig, um weitgehend unbearbeitete Datensätze für eigene Auswertungen nutzen zu können. Metadaten von unbearbeiteten Datensätzen können zum Beispiel die Erhebungsmethodik, die Zeitspanne und der Ort der Erhebung sowie die Nutzungsbedingungen umfassen. Zum anderen sind Metadaten entscheidend, wenn man auf bereits verarbeitete Datensätze oder bereits durchgeführte Auswertungen zugreifen möchte. In diesem Fall können Metadaten zum Beispiel die Verarbeitungsmethode und die ursprüngliche Datenquelle enthalten. Informationen zur Erhebungsmethodik geben einen Überblick darüber, wie die Daten gewonnen wurden, wie mit Ausfällen von Messgeräten umgegangen wurde, welches Erhebungsinstrument verwendet wurde, wie Gewichtungen vorgenommen wurden und so weiter.
Des Weiteren müssen Informationen zu Nutzungsbedingungen vorliegen. Die Nutzungsbedingungen geben darüber Auskunft, welcher Personenkreis die Daten für welche Zwecke und auf welche Art und Weise nutzen oder weitergeben darf. So ist es üblich, Mobilitätsdaten als sogenannte Public-use-files ode Scientific-use-files bereitzustellen. Das Scientific-use-file enthält dabei detailliertere Informationen, während das Public-use-file weniger Informationen umfasst. Scientific-use-file und Public-use-file unterscheiden sich in der Regel bezüglich der Anzahl der enthaltenen Variablen, Anzahl der im Datensatz enthaltenen Fälle, Grad der Anonymisierung, und Umfang der Datenaufbereitung. Der unterschiedliche Detailgrad von Datensätzen ergibt sich aus dem Kontext, in dem der Datensatz verwendet werden soll. Das Scientific-use-file ist für die Wissenschaft gedacht und ist in der Regel ausschließlich im nicht-kommerziellen Zusammenhang verwendbar. Für Akteure der Wirtschaft ist die Verwendung von Mobilitätsdatensätzen meist mit deutlich höheren Kosten als für andere verbunden.