
Datenqualität spielt in so gut wie allen datengetriebenen Projekten eine Rolle. Leider kommt sie an vielen Stellen zu kurz und führt zu maßgeblichen Problemen im späteren Verlauf. Der initiale Aufwand und Kostenfaktor ist nicht zu unterschätzen, weshalb das Thema oft vernachlässigt wird. Aber gerade in komplexen Strukturen kann eine gute Datenqualität ein entscheidender Erfolgsfaktor sein.
Was bedeutet „gute Datenqualität“?
Mit Datenqualität ist die Güte und der Zustand einer Datengrundlage gemeint. Dabei spielen verschiedene Dimensionen der Qualität eine Rolle:
- Korrektheit: Die verfügbaren Daten enthalten die richtigen Informationen.
- Vollständigkeit: Alle nötigen Daten und die zugehörigen Datenpunkte sind verfügbar.
- Aktualität: Die Daten sind auf dem neuesten Stand.
- Konsistenz: Es gibt keine Widersprüche in den Daten und Datenpunkte können zugeordnet werden.
- Eindeutigkeit: Es gibt keine mehrfachen Einträge für einen Datenpunkt (Dubletten).
- Zugänglichkeit: Alle relevanten Daten sind zugänglich für die Personen, die damit arbeiten.
Alle Dimensionen sind für eine gute Datenqualität relevant und tragen zur Verbesserung der Daten bei.
Wie lässt sich Datenqualität in der Praxis umsetzen?
Die Daten müssen in jedem Projekt individuell gesichtet und geprüft werden, um passende Maßnahmen zur Verbesserung der Datenqualität umzusetzen. Wichtig ist in jedem Fall eine ständige Pflege der Daten, um die Qualität dauerhaft hochzuhalten.
Im ersten Schritt ist eine Definition von Datenstandards wichtig, damit die Arbeitsweise vereinheitlicht wird. Solche Standards können durch ein Team aufgestellt werden, das nötige und geeignete Vorgaben entwickelt. Diese Aufgaben fallen in den Bereich Data Governance. Zusätzlich sollten alle Mitarbeiterinnen und Mitarbeiter für die Datenqualität und Standards sensibilisiert und geschult werden.
Im weiteren Verlauf sind Prüfschritte in der Datenerfassung hilfreich, um falsche Datentypen oder fehlerhafte (manuelle) Eingaben zu identifizieren. Ein typisches Beispiel in Stammdaten sind Straßennamen, die unterschiedlich abgekürzt werden können. In Bewegungsdaten ist die Prüfung und Plausibilisierung von Zahlenwerten relevant. Hier kann z.B. die Eingabe von Dezimalzahlen entweder mit Punkt oder Komma schon zu großen Problemen führen. Die manuelle Datenerfassung birgt immer Fehleranfälligkeit. Eine Automatisierung der Datenerfassung kann hier viel Zeit sparen und mit passenden Prüfschritten viele Anfälligkeiten im Datenbestand identifizieren. Aber auch technische Schritte müssen geprüft werden, damit Datenübertragungen zwischen verschiedenen Systemen reibungslos funktionieren und alle Daten korrekt und aktuell übertragen werden.
Um die Daten konsistent zu halten, ist es ratsam, nur eine zentrale Datenbasis zu nutzen, die den single point of truth abbildet. So wird vermieden, dass sich Datenpunkte an unterschiedlichen Stellen widersprechen.
Fehlende Datenqualität: Diese Risiken gibt es
Wird in einem Unternehmen wenig Wert auf Datenqualität gelegt, können sich z.B. fehlende, fehlerhafte oder doppelte Einträge einschleichen. Eine solche Datengrundlage wird für viele weitere Schritte verwendet und Fehler werden damit weitergetragen.
Das betrifft u.a. die Erstellung von Reports, die falsche Informationen enthalten können. Diese Reports wiederum dienen als Entscheidungsgrundlage und können zu Fehlentscheidungen des Managements führen. Diese Entscheidungen führen langfristig zu einer schlechten Reputation und einer schlechten Wirtschaftlichkeit des Unternehmens. Falsche Ergebnisse können auch regulatorische Probleme bereiten, wenn fehlerhafte Kennzahlen an Behörden weitergegeben werden.
Probleme können auch in der fertigenden Industrie entstehen, wenn fehlerhafte Informationen aus Datenbeständen zu einer veränderten Produktion führen. Dabei können z.B. falsche Produkte oder Ausschuss produziert werden. In diesem Fall ist eine fehlende Datenqualität mit mehr Kosten und Materialverbrauch verbunden.
Die Identifizierung der schlechten Datenqualität ist in diesem Stadium schwieriger und die nachträgliche Datenbereinigung ist mit hohem Aufwand verbunden. Prozesse im Unternehmen werden damit ineffizient und kostenintensiv.
Datenqualität als Erfolgsfaktor: So profitieren Unternehmen
Durch die Umsetzung von guter Datenqualität in den verschiedenen Dimensionen können fehlerhafte Daten erkannt und eliminiert werden. Eine zuverlässige Datenbasis kann für verschiedene Prozesse in einem Unternehmen weiter genutzt werden und als fundierte Entscheidungsgrundlage dienen. So können Kosten gespart werden und Abläufe im Unternehmen verbessert werden.
Verfügbare Standards zur Datenqualität vereinfachen nicht nur die Arbeitsweise im Unternehmen, sondern sichern auch die Aufrechterhaltung der Qualität. Damit wird der Aufwand für die Datenpflege dauerhaft verringert.
Investition in Datenqualität – warum sie sich doppelt auszahlt
Die Pflege der Datenqualität erleichtert nicht nur die tägliche Arbeit durch klare Standards und die automatisierte Erfassung und Prüfung der Daten. Sie schafft außerdem eine valide Grundlage für weiterführende Prozesse und Entscheidungen im Unternehmen.
Gerade bei komplexen Strukturen aus vielen Datenbanken oder Datenquellen ist die Datenqualität ein wichtiger Schritt, um die Übersicht zu behalten und die Qualität an allen Stellen zu sichern. Aufwand und Kosten für die Umsetzung sind gerade in bestehenden Systemen zunächst groß, sorgen aber langfristig für Kosteneinsparungen und zuverlässige Prozesse.
Eine anfängliche Investition in eine gute Datenqualität ist deshalb ein wichtiger Baustein, um in späteren Schritten verlässliche Informationen zu nutzen.
Autorin: Dr. Patricia Sieber