A/B-Testing und Conversion-Optimierung

Wie findest du heraus, welche Änderung den Einbruch verursacht hat?

Drei Änderungen, ein Einbruch

Mittwochmorgen, Weekly-Meeting im E-Commerce-Team. Auf dem Dashboard leuchtet eine Zahl rot: Die Conversion Rate ist von 3,2 auf 2,1 Prozent gefallen. Vor zwei Wochen gingen drei Änderungen an der Produktseite gleichzeitig live - neues Layout, andere Produktfotos, geänderter Button-Text. Die Teamleitung will alles sofort zurückbauen.

Das Problem: Blindes Zurückbauen macht möglicherweise eine wirksame Änderung gleich mit rückgängig. Vielleicht hat das neue Layout die Rate gedrückt, aber die Produktfotos wirken besser als vorher. Jede Woche kostet der Einbruch rund 6.000 Euro Umsatz.

Handlungsempfehlungen mit Kennzahlen hast du schon erarbeitet. Aber welche Maßnahme ist überhaupt die richtige? Genau hier setzt A/B-Testing an.

🔮 Bevor du weiterliest: Was passiert, wenn die Teamleitung alle drei Änderungen gleichzeitig zurückbaut und die Conversion Rate trotzdem nicht steigt?

Das Grundprinzip: Nur eine Variable ändern

Beim A/B-Test teilst du den eingehenden Traffic zufällig in zwei Gruppen: Eine sieht die bisherige Version (Variante A), die andere eine geänderte Version (Variante B). Beide Gruppen werden gleichzeitig gemessen. Entscheidend: Du änderst pro Test nur eine einzige Variable. Nur so lässt sich sicher sagen, ob die Änderung den Unterschied verursacht hat oder ein anderer Faktor.

Für das Meeting-Szenario bedeutet das: Statt alle drei Änderungen gleichzeitig zurückzubauen, testest du jede einzeln. Erst den Button-Text, dann die Fotos, dann das Layout.

Wie planst du einen A/B-Test sauber?

Fünf Bestandteile, die jeder Test braucht

Ein A/B-Test ohne Plan liefert Zufallsergebnisse. Fünf Bestandteile legst du vor dem Start schriftlich fest:

Hypothese: Eine prüfbare Annahme. Nicht "Wir testen mal den Button", sondern: "Ein Button-Text mit Handlungsaufforderung erhöht die Conversion Rate gegenüber dem neutralen Text."
Testvariante: Die eine Änderung, die Variante B von A unterscheidet. Alles andere bleibt identisch.
Zielmetrik: Die Kennzahl, an der du den Erfolg misst - meistens die Conversion Rate, manchmal der durchschnittliche Warenkorbwert.
Stichprobengröße: Wie viele Besuchende pro Variante nötig sind, damit der Unterschied nicht Zufall ist. Faustregel: Je kleiner der erwartete Effekt, desto mehr Traffic brauchst du.
Laufzeit: Mindestens eine volle Kalenderwoche, damit Wochentags- und Wochenend-Schwankungen enthalten sind.

Worked Example: Der Button-Text-Test

Zurück zum Conversion-Einbruch. Du startest mit dem Button-Text, weil er sich am schnellsten isolieren lässt:

Hypothese: "Jetzt sichern" erzielt eine höhere CR als "In den Warenkorb".
Testvariante: Nur der Button-Text ändert sich.
Zielmetrik: Konversionsrate = (Bestellungen / Sessions) × 100 (Site-Konversion, GA4-konform).
Stichprobe: Abhängig vom erwarteten Effekt; als Faustregel mindestens 1.000 Sessions pro Variante für mittlere Effekte. Bei kleinen Effekten (< 1 % CR-Verbesserung) ist eine Power-Analyse nötig.
Laufzeit: 14 Tage (zwei volle Kalenderwochen).

Nach 14 Tagen vergleichst du die Ergebnisse. Aber nicht jeder Unterschied in den Zahlen ist auch ein echter Unterschied.

🤔 Frage dich: Wie würdest du die Hypothese formulieren, wenn du als Nächstes die Produktfotos testen willst? Und welche Zielmetrik könnte hier aussagekräftiger sein als die Conversion Rate?

Was sagen dir die Testergebnisse?

Zwei Varianten, zwei Zahlen - und dann?

Dein Button-Text-Test ist abgeschlossen. Variante A ("In den Warenkorb") erreicht bei 4.200 Besuchenden 130 Käufe - eine CR von 3,10 %. Variante B ("Jetzt sichern") kommt bei 4.100 Besuchenden auf 139 Käufe und 3,39 %.

Variante B liegt 0,29 Prozentpunkte vorn. Bei einem durchschnittlichen Warenkorbwert von 65 Euro bedeutet das rund 585 Euro mehr Umsatz pro Testzeitraum.

Bevor du Variante B als Gewinner ausrufst, prüfst du die statistische Signifikanz. Sie zeigt, wie wahrscheinlich es ist, dass der Unterschied nicht durch Zufall entstanden ist. Die meisten A/B-Test-Tools arbeiten mit einem Konfidenzniveau von 95 %: Nur wenn die Zufallswahrscheinlichkeit unter 5 % liegt, gilt das Ergebnis als belastbar.

Störfaktoren, die Ergebnisse verfälschen

Auch ein signifikantes Ergebnis kann trügen, wenn Störfaktoren im Spiel sind. Drei typische Fallen:

Saisonale Schwankungen: Ein Test nur über ein verkaufsstarkes Wochenende bildet nicht das normale Kaufverhalten ab. Deshalb die Regel: mindestens eine volle Kalenderwoche Laufzeit.
Unterschiedliche Traffic-Quellen: Wenn Variante A überwiegend von Newsletter-Empfangenden besucht wird und B von Social-Media-Traffic, vergleichst du die Zielgruppen, nicht den Button.
Zu früher Abbruch: Nach drei Tagen sieht B besser aus, du stoppst. Die Datenbasis ist zu klein, der Unterschied könnte reiner Zufall sein.

⚖️ Vergleich im Kopf: Dein Test lief 14 Tage und zeigt 3,10 % vs. 3,39 %. Ein Kollege hat einen ähnlichen Test gemacht, aber nur über ein Black-Friday-Wochenende - sein Ergebnis: 4,2 % vs. 4,8 %. Welches Ergebnis ist belastbarer?

Wo in der Kontaktstrecke testest du als Nächstes?

Drei Touchpoints, drei Hebel

Der Button-Text ist optimiert. An welcher Stelle der Kontaktstrecke bringt der nächste Test am meisten?

Landing-Page: Hohes Traffic-Volumen, weil hier die meisten Besuchenden einsteigen. Der Conversion-Hebel ist mittel - viele springen ab, bevor sie ein Produkt sehen. Dafür ist der Aufwand niedrig (Text, Bilder, Überschriften).

Produktdetailseite: Mittleres Traffic-Volumen, aber hoher Hebel - hier fällt die Kaufentscheidung. Änderungen an Layout, Fotos oder Beschreibung brauchen mehr Abstimmung mit dem Team.

Checkout: Niedriges Volumen (nur wer kaufen will, kommt hierher), aber jeder Abbruch ist ein verlorener Kauf. Änderungen an Formularen oder Zahlungsoptionen sind technisch aufwendig.

Die Priorisierung hängt von deinem Ziel ab. Schneller Effekt mit wenig Aufwand? Landing-Page. Größter Umsatzhebel bei mittlerem Aufwand? Produktdetailseite.

So hätte es im Weekly-Meeting laufen müssen

Statt alle drei Änderungen blind zurückzubauen, hättest du im Meeting so argumentiert:

Jede Änderung einzeln testen, nicht alles gleichzeitig rückgängig machen.
Mit dem Element starten, das sich am schnellsten isolieren lässt.
Für jeden Test Hypothese, Metrik, Stichprobe und Laufzeit festlegen.
Ergebnisse erst nach mindestens einer vollen Kalenderwoche auswerten und auf Signifikanz prüfen.

So findest du heraus, welche Änderung den Einbruch tatsächlich verursacht hat. Und du behältst die Änderungen, die funktionieren.

🧑‍🏫 Erkläre es im Kopf: Stell dir vor, du erklärst einer neuen Kollegin, warum der Checkout trotz weniger Traffic ein guter Testkandidat sein kann - wie würdest du das in zwei Sätzen formulieren?

Teste dein Wissen

Du entwirfst einen A/B-Test für einen neuen Call-to-Action-Button. Welche Laufzeit legst du in deinem Testplan fest, um wochentags- und wochenendbedingte Schwankungen im Nutzerverhalten methodisch korrekt abzubilden?

A/B-Testing und Conversion-Optimierung

Thema verstanden?