Primärdaten und Datenherkunft

4 min 2 Abschnitte
Was du nach diesem Konzept kannst 2
  1. Du bist in der Lage, die Bedeutung der Datenherkunft (Provenienz) für die Vertrauenswürdigkeit und Nachvollziehbarkeit von Daten zu interpretieren ,

    indem die Auswirkungen fehlender oder unklarer Herkunft auf Analyse, Compliance und Entscheidungsfindung anhand von Praxisbeispielen (z. B. Herkunft von Sensordaten in der Produktion, Quellenangaben in wissenschaftlichen Datenbanken) analysiert werden.

  2. Du bist in der Lage, den Begriff und die Bedeutung von Primärdaten zu erklären ,

    indem die Entstehung von Primärdaten im Unterschied zu Sekundärdaten anhand von Beispielen wie Messwerten, Umfrageergebnissen oder Logfiles dargestellt und deren Rolle für die Datenqualität erläutert wird.

Was unterscheidet Primärdaten von Sekundärdaten?

Primärdaten: Die rohe Quelle der Wahrheit

Stell dir vor, ein Temperatursensor in einer Produktionshalle misst jede Sekunde die exakte Gradzahl und speichert diese ab. Diese rohen, unveränderten Messwerte sind Primärdaten. Sie werden direkt an ihrer Entstehungsquelle für einen spezifischen Zweck erstmalig erhoben. Sie sind die "Originalaufnahmen" eines Prozesses und wurden noch nicht gefiltert, interpretiert oder zusammengefasst.

Da sie den direkten Kontakt zur Realität darstellen, bilden Primärdaten das fundamentale Fundament für die Datenqualität. Wenn diese Basis fehlerhaft ist, werden auch alle darauf aufbauenden Analysen falsch sein. Weitere typische Beispiele sind die exakten, unveränderten Antworten aus einer Online-Umfrage oder die rohen Logfiles eines Webservers, die jeden Klick mit einem Zeitstempel aufzeichnen.

Sekundärdaten: Das verarbeitete Ergebnis

Sobald du Primärdaten nimmst und sie verarbeitest, aggregierst oder interpretierst, entstehen Sekundärdaten. Sie sind also bereits vorhandene Daten, die oft für einen neuen Zweck oder eine übergeordnete Analyse aufbereitet wurden.

Während Primärdaten oft unübersichtlich und riesig in ihrer Menge sind, liefern Sekundärdaten den schnellen Überblick. Ein Energieversorger sammelt beispielsweise stündliche Stromverbrauchswerte eines Haushalts (Primärdaten). Wenn diese Werte am Ende des Jahres zu einer einzigen Zahl – dem Jahresverbrauch – aufsummiert werden, um die Rechnung zu erstellen, handelt es sich um Sekundärdaten.

Der direkte Vergleich in der Praxis

Um den Unterschied im IT-Alltag zu erkennen, hilft die Gegenüberstellung des Ursprungs und der Verarbeitung:

  • E-Commerce: Jeder einzelne Kassenbon mit Artikel, Preis und Uhrzeit (Primärdaten) wird am Monatsende zu einem Bericht über den Gesamtumsatz pro Warengruppe zusammengefasst (Sekundärdaten).
  • Web-Analyse: Die rohen Server-Logfiles mit IP-Adressen und Zugriffszeiten (Primärdaten) werden von einem Analysetool ausgewertet, um eine visuelle Heatmap der beliebtesten Webseiten-Bereiche zu generieren (Sekundärdaten).
  • Forschung: Die gemessenen Reaktionszeiten einzelner Testpersonen in Millisekunden (Primärdaten) fließen in eine veröffentlichte Studie ein, die nur noch den berechneten Durchschnittswert der Gruppen vergleicht (Sekundärdaten).
Primärdaten und Datenherkunft — dec-it-basics-data-and-information-primary-data-and-provenance-of-data_page1.svg

Warum ist die Datenherkunft (Provenienz) so wichtig?

Provenienz: Der Lebenslauf deiner Daten

Datenprovenienz (oder Datenherkunft) dokumentiert die gesamte Entstehungsgeschichte und den Verarbeitungsweg von Daten. Sie beantwortet das "Woher" und "Wie". Wenn du in einer wissenschaftlichen Datenbank einen bestimmten Messwert findest, verrät dir die Provenienz exakt, welches Labor diesen Wert wann erhoben hat, mit welchem Instrument gemessen wurde und welche mathematischen Filter danach angewendet wurden.

Die Provenienz umfasst Metadaten zu folgenden Fragen:

  • Quelle: Welcher Sensor, welche Datenbank oder welche Person hat die Daten erzeugt?
  • Zeitpunkt: Wann wurden die Daten generiert und wann zuletzt modifiziert?
  • Transformation: Welche Verarbeitungsschritte (Aggregation, Filterung, Formatänderung) haben die Daten durchlaufen?

Vertrauenswürdigkeit und Fehleranalyse

Ohne eine klare Herkunft sind Daten wertlos, da ihre Vertrauenswürdigkeit nicht belegt werden kann. Wenn ein Management-Dashboard plötzlich einen massiven Einbruch der Produktionszahlen anzeigt, musst du dich auf die Daten verlassen können.

Hier ermöglicht die Provenienz eine präzise Fehleranalyse (Traceability). Du kannst den Weg der Daten rückwärts verfolgen: Liegt das Problem an einer defekten Maschine? Hat ein spezifischer Sensor in der Produktion falsche Primärdaten geliefert? Oder gab es einen Fehler in der SQL-Abfrage, die die Daten für das Dashboard aggregiert hat? Nur wenn der Weg der Daten lückenlos dokumentiert ist, kannst du solche Ursachen schnell und zielsicher identifizieren.

Compliance und rechtliche Nachvollziehbarkeit

In der modernen IT ist die Dokumentation der Datenherkunft oft keine freiwillige Best Practice, sondern eine rechtliche Notwendigkeit (Compliance). Besonders bei der Verarbeitung personenbezogener Daten fordert die Datenschutz-Grundverordnung (DSGVO) eine strenge Rechenschaftspflicht.

Ein Unternehmen muss jederzeit lückenlos nachweisen können, woher die Daten der Kundschaft stammen (z. B. durch ein ausgefülltes Web-Formular mit Zeitstempel der Einwilligung) und wie diese Daten intern weiterverarbeitet wurden (z. B. Übertragung in das CRM-System für den Newsletter-Versand). Fehlt diese Provenienz, drohen bei Audits empfindliche Strafen, da die rechtmäßige Nutzung der Daten nicht belegt werden kann.

Primärdaten und Datenherkunft — dec-it-basics-data-and-information-primary-data-and-provenance-of-data_page2.svg

Teste dein Wissen

Ein Temperatursensor in der Serverkühlung speichert sekündlich die exakte Gradzahl in einer Datenbank. Um welche Art von Daten handelt es sich hierbei?

Bereit für mehr?

Thema verstanden?

Teste dein Wissen interaktiv in unserer App. 7 Tage kostenlos, dann nur 5 € im Monat.