A/B-Tests für Online-Marketing-Maßnahmen

Ab wann misst dein A/B-Test echte Unterschiede statt Zufall?

Zwei Betreffzeilen, eine offene Frage

Wie viele Menschen müssen eine E-Mail öffnen, bevor du sicher sagen kannst, welche Betreffzeile besser funktioniert? Deine Teamleiterin Marta stellt am Montag im A/B-Testing-Workshop den Plan für den Wochennewsletter vor: 80.000 Empfänger:innen, zwei Betreffzeilen, Versand morgen früh. "Test die gegeneinander, aber nimm nicht zu viele Leute für den Test raus."

Die Konversionsrate aus der Erfolgsmessung ist die Grundlage für jeden A/B-Test. Sie liegt aktuell bei 2 Prozent. Du öffnest das Versandtool und siehst das Feld "Testgruppe: Anzahl Empfänger:innen." Ist die Testgruppe zu klein, misst du Zufall statt echte Unterschiede. Die schlechtere Variante geht dann an die restlichen Empfänger:innen. Bei 2 Prozent Konversionsrate kann schon ein halber Prozentpunkt Differenz mehrere tausend Euro Umsatz kosten.

Vier Eingaben, eine Zahl

Um die Mindest-Stichprobengröße zu berechnen, gibst du vier Werte in einen Online-Rechner (z.B. "A/B Test Sample Size Calculator") ein:

Ausgangs-Konversionsrate: 2 % (dein aktueller Wert)
Erwartete Verbesserung: 0,5 Prozentpunkte (Ziel: 2,5 %)
Signifikanzniveau: 95 % (nur 5 % Irrtumswahrscheinlichkeit)
Statistische Power: 80 % (Wahrscheinlichkeit, einen echten Unterschied auch zu finden)

Ergebnis: ca. 14.000 Empfänger:innen pro Gruppe, also 28.000 insgesamt. Das sind 35 % der gesamten Liste. Martas Wunsch, "nicht zu viele rauszunehmen," kollidiert hier mit der Statistik. Aber nur mit dieser Gruppengröße misst du einen echten Unterschied statt Rauschen.

🎬 Vorstellung: Stell dir vor, du sitzt vor dem Versandtool und tippst 14.000 ein. Marta schaut über deine Schulter. Wie erklärst du ihr, warum du mehr als ein Drittel der Liste brauchst?

Welche 7 Elemente gehören in deinen Testplan?

Vom Bauchgefühl zum strukturierten Plan

Die Stichprobengröße ist nur eines von sieben Elementen, die du vor jedem A/B-Test schriftlich festlegst:

Hypothese formulieren: "Betreffzeile B erzeugt eine höhere Öffnungsrate als A, weil sie eine konkrete Zahl enthält."
Nur eine Testvariable ändern. Hier die Betreffzeile. Absender, Versandzeitpunkt und Inhalt bleiben identisch.
Primären KPI vorher festlegen: Konversionsrate, Click-through-Rate oder Öffnungsrate. Nicht nachher aussuchen.
Stichprobengröße berechnen (hier: 14.000 pro Gruppe).
Eine Mindestlaufzeit bestimmen: Bei E-Mails oft 2-4 Stunden, bei Landingpages mehrere Tage.
Signifikanzniveau fixieren: Meist 95 %. Nicht nachträglich senken, wenn das Ergebnis knapp ausfällt.
Erfolgskriterium definieren: Ab welchem Unterschied lohnt sich der Aufwand? Z.B. "Variante B muss mindestens 0,3 Prozentpunkte besser sein."

Störfaktoren erkennen und dokumentieren

Selbst ein sauber geplanter Test kann durch externe Einflüsse verzerrt werden. Mindestens zwei Störfaktoren dokumentierst du vor Teststart:

Saisonalität: Ein Newsletter-Test am Black Friday misst nicht dasselbe Kundenverhalten wie einer im Januar. Die gewinnende Variante funktioniert vielleicht nur unter Aktionsdruck.

Kampagnenüberlappung: Läuft gleichzeitig eine Google-Ads-Kampagne auf dasselbe Produkt? Dann beeinflusst der zusätzliche Traffic deine Konversionsrate, ohne dass die Betreffzeile dafür verantwortlich ist.

Beide Faktoren gehören in die Testdokumentation. Tauchen sie auf, weißt du später, warum ein Ergebnis nicht reproduzierbar war.

🤔 Frage dich: Wie würdest du vorgehen, wenn dein A/B-Test für eine Produktseiten-Headline genau in die Black-Friday-Woche fällt - testest du trotzdem oder verschiebst du, und was sind die Konsequenzen beider Optionen?

Variante B gewinnt - rollst du sie trotzdem aus?

Drei Prüfungen vor dem Roll-out

Martas Newsletter-Test ist abgeschlossen. Variante B zeigt eine Konversionsrate von 2,4 %, Variante A nur 2,1 %. Klingt eindeutig. Trotzdem prüfst du drei Gegenfaktoren, bevor du eine Empfehlung aussprichst:

Statistische Signifikanz: Hat der Rechner einen p-Wert unter 0,05 ausgegeben? Bei p = 0,07 ist der Unterschied nicht belastbar - er könnte Zufall sein. Kein Roll-out ohne Signifikanz.
Saisonale Verzerrung: Wurde der Test während einer Sonderaktion durchgeführt? Dann gilt das Ergebnis möglicherweise nur für Aktionszeiträume, nicht für den regulären Versand.
Markenpassung und Implementierungskosten: Variante B enthält einen aggressiven Rabatt-Hinweis. Das passt zur Aktion, widerspricht aber der Markentonalität im Alltag. Oder: Die gewinnende Variante erfordert ein neues Template für 2.000 Euro - bei einem erwarteten Mehrumsatz von 500 Euro.

Erst wenn alle drei Prüfungen bestanden sind, empfiehlst du den Roll-out.

Martas Test auf dem Prüfstand

Im Newsletter-Fall zeigt die Prüfung: Der p-Wert liegt bei 0,12 - nicht signifikant. Gleichzeitig lief am Testtag eine Instagram-Kampagne auf dasselbe Produkt. Martas Team verschiebt den Roll-out und wiederholt den Test in einer ruhigeren Woche mit derselben Stichprobengröße. Keine voreilige Entscheidung, kein Geld verschwendet.

🧑‍🏫 Erkläre es im Kopf: Stell dir vor, du erklärst einer neuen Kollegin, warum Martas Team trotz gewinnender Variante B den Roll-out verschoben hat. Welche drei Argumente nennst du - und in welcher Reihenfolge?

Teste dein Wissen

Für den Newsletter-Test mit 2 % Basisrate und 0,5 Prozentpunkten Ziel-Differenz ergibt die Formel ca. 13.800 Besucher pro Gruppe. Was bedeutet das für deine Planung?

A/B-Tests für Online-Marketing-Maßnahmen

Thema verstanden?