Nach welchen Kriterien klassifizieren wir Daten?
Die Notwendigkeit der Datenordnung
Stell dir eine riesige Lagerhalle vor, in der Millionen unsortierter Kisten stehen. Ohne Beschriftung findest du weder die wertvollen noch die zerbrechlichen Inhalte. In der IT löst die Datenklassifizierung dieses Problem. Sie kategorisiert Daten systematisch nach Eigenschaften wie Struktur und Vertraulichkeit. Dieser Prozess ist zwingend erforderlich, um den passenden Speicherort zu wählen, IT-Sicherheit zu gewährleisten und gesetzliche Vorgaben effizient zu erfüllen. Aus deinem Vorwissen weißt du bereits, dass Rohdaten erst durch Kontext zu wertvollen Informationen werden – die Klassifizierung liefert genau diesen technischen und rechtlichen Kontext.
Klassifizierung nach Datenstruktur
Daten unterscheiden sich fundamental in ihrem Aufbau. Diese Struktur bestimmt maßgeblich, wie wir die Daten speichern und verarbeiten:
- Strukturierte Daten: Besitzen ein festes, vordefiniertes Schema. Ein klassisches Beispiel sind relationale Datenbanken, in denen Kund:innendaten in strikten Tabellen (Zeilen und Spalten) organisiert sind. Sie lassen sich extrem schnell und präzise durchsuchen.
- Semi-strukturierte Daten: Haben keine starre Tabellenform, nutzen aber Tags oder Hierarchien zur Organisation. Typische Formate sind JSON oder XML, die häufig für den flexiblen Datenaustausch bei Web-APIs verwendet werden.
- Unstrukturierte Daten: Besitzen kein vordefiniertes Format. Dazu zählen E-Mails, PDF-Dokumente, Bilder oder Videos. Sie machen den Großteil moderner Datenmengen aus und erfordern spezialisierte Such- und Analysewerkzeuge, da sie sich nicht einfach in Tabellen pressen lassen.
Klassifizierung nach Vertraulichkeitsstufen
Um Daten angemessen zu schützen, werden sie nach ihrem potenziellen Schadenspotenzial bei unbefugter Offenlegung in ein Klassifikationsschema eingeteilt:
- Öffentlich: Frei zugänglich, kein Schadenspotenzial. Beispiel: Marketingbroschüren oder Pressemitteilungen auf der Unternehmenswebsite.
- Intern: Nur für Mitarbeitende bestimmt, geringes Schadenspotenzial. Beispiel: Allgemeine Arbeitsanweisungen oder Speisepläne im Intranet.
- Vertraulich: Streng limitierter Zugriffskreis, hoher potenzieller Schaden für das Unternehmen oder Betroffene. Beispiel: Personalakten, detaillierte Finanzdaten oder nicht-öffentliche Kund:innendatenbanken.
- Geheim: Höchste Schutzstufe, existenzielles Risiko bei Offenlegung. Beispiel: Quellcode des Kernprodukts, noch nicht patentierte Forschungsergebnisse oder kryptografische Master-Schlüssel.
Wie beeinflusst die Datenklassifizierung unsere IT-Systeme?
Grundlage für Compliance und Datenschutz (DSGVO)
Datenklassifizierung ist das Fundament, um gesetzliche Vorgaben wie die Datenschutz-Grundverordnung (DSGVO) technisch umzusetzen. Die DSGVO verlangt Prinzipien wie Datenminimierung und strikte Löschfristen.
Wenn du einen Datensatz in deinem System als "personenbezogen und vertraulich" klassifizierst (z. B. das Geburtsdatum oder die IP-Adresse von Nutzer:innen), können automatisierte Prozesse greifen. Das System weiß dadurch genau, dass diese Daten nach Ablauf der gesetzlichen Aufbewahrungsfrist unwiderruflich gelöscht werden müssen und der Zugriff nur für speziell autorisierte Mitarbeitende freigegeben wird. Ohne diese vorherige Klassifizierung wären solche Compliance-Vorgaben in großen IT-Umgebungen schlichtweg nicht steuerbar.
Auswirkungen auf Speicher- und Verarbeitungstechnologien
Die gewählte Klassifizierung diktiert direkt, welche Technologien für die Speicherung und Verarbeitung eingesetzt werden. Du musst stets die Balance zwischen Sicherheit, Kosten und Performance finden:
- Geheime, strukturierte Daten: Gesundheitsdaten von Patient:innen erfordern eine relationale Datenbank auf dedizierten, stark abgesicherten Servern. Diese muss auf Festplattenebene verschlüsselt sein, strikte Zugriffskontrollen besitzen und jeden Lesezugriff in einem Audit-Log protokollieren.
- Öffentliche, unstrukturierte Daten: Produktbilder für einen Webshop benötigen keine teure Verschlüsselung oder komplexe Tabellenstrukturen. Sie werden idealerweise in einem skalierbaren, cloudbasierten Objektspeicher abgelegt. Diese Technologie ist auf maximale Auslieferungsgeschwindigkeit und geringe Speicherkosten optimiert.
Teste dein Wissen
Du richtest für ein Systemhaus ein neues Storage-System ein. Warum ist die vorherige Datenklassifizierung laut Konzept zwingend erforderlich?