Was bestimmt die Qualität von Daten und wie bewerten wir sie?
Die fünf Dimensionen der Datenqualität
Stell dir vor, du entwickelst eine neue E-Commerce-Plattform. Die beste Software nützt nichts, wenn die zugrundeliegenden Daten fehlerhaft sind. Datenqualität misst, wie gut Daten für ihren vorgesehenen Zweck geeignet sind. Wie in der begleitenden Grafik dargestellt, unterteilen wir sie in fünf zentrale Dimensionen:
- Genauigkeit (Accuracy): Entsprechen die Daten der realen Welt? Ein Tippfehler in der E-Mail-Adresse (
max@gmal.comstattgmail.com) macht das Datum ungenau und für den Versand unbrauchbar. - Vollständigkeit (Completeness): Sind alle zwingend benötigten Informationen vorhanden? Fehlt bei einer Lieferadresse die Hausnummer, ist der Datensatz unvollständig.
- Aktualität (Timeliness): Repräsentieren die Daten den neuesten Stand? Eine gespeicherte Adresse ist wertlos, wenn die Person bereits vor zwei Jahren umgezogen ist.
- Konsistenz (Consistency): Sind die Daten über verschiedene Systeme hinweg widerspruchsfrei? Es ist inkonsistent, wenn eine Kundschaft im CRM-System als "aktiv", im Abrechnungssystem aber als "gekündigt" geführt wird.
- Relevanz (Relevance): Werden nur Daten erfasst, die für den Anwendungsfall wirklich einen Mehrwert bieten? Die Erfassung der Schuhgröße ist für den Versand eines reinen Software-Newsletters völlig irrelevant.
Die fatalen Folgen mangelnder Datenqualität
Schlechte Datenqualität ist wie ein Fundament aus Sand – darauf gebaute Prozesse und Analysen werden unweigerlich zusammenbrechen. Die Auswirkungen auf ein Unternehmen sind gravierend:
- Gestörte operative Abläufe: Wenn Daten unvollständig oder ungenau sind, scheitern alltägliche Prozesse. Eine fehlerhafte Lieferadresse führt zu unzustellbaren Paketen. Das erzeugt teure Retouren, blockiert den Support und verärgert die Kundschaft.
- Fehlerhafte Geschäftsentscheidungen: Management-Entscheidungen basieren auf Datenanalysen. Wenn ein Unternehmen seine Produktionsmengen auf Basis veralteter Verkaufszahlen plant (mangelnde Aktualität), werden entweder teure Überkapazitäten im Lager aufgebaut oder Lieferengpässe riskiert.
- Compliance-Risiken und rechtliche Strafen: Gesetzliche Vorgaben wie die DSGVO fordern strikte Datenhygiene. Wenn personenbezogene Daten inkonsistent über Systeme verstreut sind und bei einem Löschantrag nicht restlos entfernt werden, drohen dem Unternehmen empfindliche Bußgelder und ein massiver Vertrauensverlust.
Methoden zur Bewertung der Datenqualität im Vergleich
Um Fehler aufzuspüren, bevor sie Schaden anrichten, müssen wir die Datenqualität systematisch bewerten. Je nach Datenart und Menge eignen sich unterschiedliche Methoden:
- Manuelle Prüfung (Stichproben): Ein Mensch sichtet die Daten direkt.
- Eignung: Ideal für kleine, hochsensible Datensätze oder komplexe Freitextfelder (unstrukturierte Daten), bei denen menschliches Kontextwissen nötig ist.
- Nachteil: Für große Datenmengen viel zu langsam, teuer und fehleranfällig.
- Automatisierte Validierung: Skripte prüfen Daten gegen fest definierte Regeln (z. B. "Ist das Feld eine gültige E-Mail-Adresse?").
- Eignung: Perfekt für strukturierte Daten. Diese Methode wird meist direkt bei der Dateneingabe (z. B. in Webformularen) eingesetzt, um ungenaue oder unvollständige Daten gar nicht erst ins System zu lassen.
- Statistische Analysen (Data Profiling): Algorithmen durchsuchen riesige Datenbestände nach Mustern und Anomalien.
- Eignung: Hervorragend geeignet, um versteckte, systematische Fehler in historischen Datenbanken zu finden. Fällt beispielsweise auf, dass bei 40 % der Kundschaft das Geburtsdatum "01.01.1900" lautet, deckt die Statistik hier ein klares Qualitätsproblem auf, das einer automatisierten Validierung (das Datum an sich ist gültig) entgangen wäre.
Teste dein Wissen
Du erfasst Kundendaten und tippst versehentlich "30.02.1990" als Geburtsdatum ein. Welche Dimension der Datenqualität ist hier primär verletzt?