CSV

Wie sind CSV-Dateien aufgebaut und welche Vorteile bieten sie?

Die Struktur einer CSV-Datei

CSV steht für Comma-Separated Values (kommagetrennte Werte). Es ist ein extrem simples, textbasiertes Format, das genutzt wird, um tabellarische Daten zu speichern und auszutauschen. Stell dir vor, du exportierst eine klassische Datenbanktabelle in eine reine Textdatei.

Der Aufbau folgt dabei simplen Regeln:

Datensatz (Zeile): Jede Zeile in der Textdatei entspricht exakt einem Datensatz (z. B. den Daten eines bestimmten Produkts).
Datenfeld (Spalte): Innerhalb einer Zeile werden die einzelnen Attribute (wie Artikelnummer oder Preis) durch ein Trennzeichen (Delimiter) voneinander getrennt. Standardmäßig ist das ein Komma (,). In Europa wird aufgrund von Dezimalkommas bei Zahlen oft auch ein Semikolon (;) verwendet.
Kopfzeile (Header): Optional, aber in der Praxis sehr empfehlenswert, ist die allererste Zeile der Datei. Sie enthält die Namen der Spalten und macht die Datenstruktur sofort erkennbar.

Artikelnummer;Produktname;Preis;Lagerbestand
A-101;Smart-Home-Hub;79.99;150
B-203;LED-Leuchtmittel E27;5.49;875

Warum CSV für den Datenaustausch so beliebt ist

Obwohl du bereits strukturierte Formate wie JSON kennst, ist CSV in der Praxis oft die erste Wahl für den massenhaften Datenaustausch. Das hat entscheidende Vorteile:

Weite Verbreitung und Kompatibilität: Nahezu jedes IT-System der Welt kann CSV-Dateien lesen und schreiben. Egal ob ein altes ERP-System, eine Tabellenkalkulation oder ein modernes Python-Skript – CSV ist der universelle kleinste gemeinsame Nenner.
Einfachheit und menschliche Lesbarkeit: Da es sich um reinen Text handelt, kannst du eine CSV-Datei im Notfall mit jedem simplen Texteditor öffnen, den Inhalt sofort erfassen und sogar manuell korrigieren.
Kompaktheit: Im Gegensatz zu JSON, wo Schlüsselnamen (wie "Produktname": ...) in jedem einzelnen Datensatz wiederholt werden müssen, stehen die Spaltennamen bei CSV nur ein einziges Mal im Header. Bei großen, flachen Tabellen mit Millionen von Zeilen spart das massiv Speicherplatz und Übertragungszeit.

CSV — dec-it-data-integration-data-exchange-csv_page1.svg

Welche Herausforderungen entstehen beim Parsen von CSV-Dateien?

Systembedingte Nachteile des Formats

Trotz seiner weiten Verbreitung stößt das CSV-Format schnell an seine Grenzen, besonders im Vergleich zu relationalen Datenbanken oder JSON:

Keine Datentypen: In einer SQL-Datenbank ist klar definiert, ob ein Feld eine Zahl, ein Datum oder Text ist. In CSV ist alles reiner Text. Das einlesende Programm muss selbst interpretieren, ob 01.02.2023 ein Datum oder nur eine Zeichenkette ist.
Nur für flache Daten: CSV ist ausschließlich für zweidimensionale Tabellen gedacht. Wenn du komplexe, verschachtelte Daten abbilden musst (z. B. eine Bestellung, die wiederum mehrere verschiedene Artikel als Unterelemente enthält), ist CSV ungeeignet.
Fehlende Standardisierung: Es gibt keinen weltweit strikten Standard für CSV. Ob ein Komma, Semikolon oder Tabulator als Trennzeichen dient und welche Zeichenkodierung verwendet wird, ist oft Auslegungssache und führt zu Inkompatibilitäten zwischen Systemen.

Fallstricke beim automatisierten Einlesen (Parsen)

Das Einlesen und Verarbeiten (Parsen) von CSV-Dateien per Skript birgt typische Fehlerquellen, die du bei der Programmierung von Schnittstellen zwingend abfangen musst:

Trennzeichen im Datenfeld: Was passiert, wenn ein Produktname selbst ein Komma enthält (z. B. Monitor, 27 Zoll)? Wenn das Komma auch dein Delimiter ist, würde der Parser hier fälschlicherweise eine neue Spalte beginnen und alle nachfolgenden Daten verschieben.
Quoting (Anführungszeichen): Um das obige Problem zu lösen, müssen betroffene Felder in Anführungszeichen gesetzt werden: "Monitor, 27 Zoll". Der Parser muss explizit so konfiguriert sein, dass er Trennzeichen innerhalb dieses Quotings ignoriert.
Zeichenkodierung (Encoding): Wenn das exportierende System die Datei in ISO-8859-1 speichert, dein Import-Skript aber UTF-8 erwartet, werden Umlaute und Sonderzeichen zerstört (aus "Müller" wird z. B. "Mller" oder ein kryptisches Symbol).
Fehlende Header: Wenn die Kopfzeile fehlt, muss dein Skript die exakte Reihenfolge der Spalten blind kennen. Fügt das Quellsystem später eine neue Spalte in der Mitte hinzu, ordnet dein Skript die Daten falsch zu und der Import schlägt fehl.

CSV — dec-it-data-integration-data-exchange-csv_page2.svg

Teste dein Wissen

Du exportierst Kundendaten aus einem ERP-System in eine CSV-Datei. Was repräsentiert eine einzelne Zeile in dieser Textdatei?