Was unterscheidet Primärdaten von Sekundärdaten?
Primärdaten: Die rohe Quelle der Wahrheit
Stell dir vor, ein Temperatursensor in einer Produktionshalle misst jede Sekunde die exakte Gradzahl und speichert diese ab. Diese rohen, unveränderten Messwerte sind Primärdaten. Sie werden direkt an ihrer Entstehungsquelle für einen spezifischen Zweck erstmalig erhoben. Sie sind die "Originalaufnahmen" eines Prozesses und wurden noch nicht gefiltert, interpretiert oder zusammengefasst.
Da sie den direkten Kontakt zur Realität darstellen, bilden Primärdaten das fundamentale Fundament für die Datenqualität. Wenn diese Basis fehlerhaft ist, werden auch alle darauf aufbauenden Analysen falsch sein. Weitere typische Beispiele sind die exakten, unveränderten Antworten aus einer Online-Umfrage oder die rohen Logfiles eines Webservers, die jeden Klick mit einem Zeitstempel aufzeichnen.
Sekundärdaten: Das verarbeitete Ergebnis
Sobald du Primärdaten nimmst und sie verarbeitest, aggregierst oder interpretierst, entstehen Sekundärdaten. Sie sind also bereits vorhandene Daten, die oft für einen neuen Zweck oder eine übergeordnete Analyse aufbereitet wurden.
Während Primärdaten oft unübersichtlich und riesig in ihrer Menge sind, liefern Sekundärdaten den schnellen Überblick. Ein Energieversorger sammelt beispielsweise stündliche Stromverbrauchswerte eines Haushalts (Primärdaten). Wenn diese Werte am Ende des Jahres zu einer einzigen Zahl – dem Jahresverbrauch – aufsummiert werden, um die Rechnung zu erstellen, handelt es sich um Sekundärdaten.
Der direkte Vergleich in der Praxis
Um den Unterschied im IT-Alltag zu erkennen, hilft die Gegenüberstellung des Ursprungs und der Verarbeitung:
- E-Commerce: Jeder einzelne Kassenbon mit Artikel, Preis und Uhrzeit (Primärdaten) wird am Monatsende zu einem Bericht über den Gesamtumsatz pro Warengruppe zusammengefasst (Sekundärdaten).
- Web-Analyse: Die rohen Server-Logfiles mit IP-Adressen und Zugriffszeiten (Primärdaten) werden von einem Analysetool ausgewertet, um eine visuelle Heatmap der beliebtesten Webseiten-Bereiche zu generieren (Sekundärdaten).
- Forschung: Die gemessenen Reaktionszeiten einzelner Testpersonen in Millisekunden (Primärdaten) fließen in eine veröffentlichte Studie ein, die nur noch den berechneten Durchschnittswert der Gruppen vergleicht (Sekundärdaten).
Warum ist die Datenherkunft (Provenienz) so wichtig?
Provenienz: Der Lebenslauf deiner Daten
Datenprovenienz (oder Datenherkunft) dokumentiert die gesamte Entstehungsgeschichte und den Verarbeitungsweg von Daten. Sie beantwortet das "Woher" und "Wie". Wenn du in einer wissenschaftlichen Datenbank einen bestimmten Messwert findest, verrät dir die Provenienz exakt, welches Labor diesen Wert wann erhoben hat, mit welchem Instrument gemessen wurde und welche mathematischen Filter danach angewendet wurden.
Die Provenienz umfasst Metadaten zu folgenden Fragen:
- Quelle: Welcher Sensor, welche Datenbank oder welche Person hat die Daten erzeugt?
- Zeitpunkt: Wann wurden die Daten generiert und wann zuletzt modifiziert?
- Transformation: Welche Verarbeitungsschritte (Aggregation, Filterung, Formatänderung) haben die Daten durchlaufen?
Vertrauenswürdigkeit und Fehleranalyse
Ohne eine klare Herkunft sind Daten wertlos, da ihre Vertrauenswürdigkeit nicht belegt werden kann. Wenn ein Management-Dashboard plötzlich einen massiven Einbruch der Produktionszahlen anzeigt, musst du dich auf die Daten verlassen können.
Hier ermöglicht die Provenienz eine präzise Fehleranalyse (Traceability). Du kannst den Weg der Daten rückwärts verfolgen: Liegt das Problem an einer defekten Maschine? Hat ein spezifischer Sensor in der Produktion falsche Primärdaten geliefert? Oder gab es einen Fehler in der SQL-Abfrage, die die Daten für das Dashboard aggregiert hat? Nur wenn der Weg der Daten lückenlos dokumentiert ist, kannst du solche Ursachen schnell und zielsicher identifizieren.
Compliance und rechtliche Nachvollziehbarkeit
In der modernen IT ist die Dokumentation der Datenherkunft oft keine freiwillige Best Practice, sondern eine rechtliche Notwendigkeit (Compliance). Besonders bei der Verarbeitung personenbezogener Daten fordert die Datenschutz-Grundverordnung (DSGVO) eine strenge Rechenschaftspflicht.
Ein Unternehmen muss jederzeit lückenlos nachweisen können, woher die Daten der Kundschaft stammen (z. B. durch ein ausgefülltes Web-Formular mit Zeitstempel der Einwilligung) und wie diese Daten intern weiterverarbeitet wurden (z. B. Übertragung in das CRM-System für den Newsletter-Versand). Fehlt diese Provenienz, drohen bei Audits empfindliche Strafen, da die rechtmäßige Nutzung der Daten nicht belegt werden kann.
Teste dein Wissen
Ein Temperatursensor in der Serverkühlung speichert sekündlich die exakte Gradzahl in einer Datenbank. Um welche Art von Daten handelt es sich hierbei?