Wie lange sollte ein Test laufen?

Mindestens einen vollständigen Wirtschaftszyklus – meist zwei bis vier Wochen – und bis statistische Signifikanz erreicht ist. Tests vorzeitig zu stoppen, weil eine Variante 'führt', ist die häufigste Quelle falscher CRO-Schlussfolgerungen.

Was tut ihr, wenn das Volumen für A/B-Tests nicht reicht?

Begründetes Redesign mit qualitativer Validierung – Session-Recordings, Heatmaps, Nutzer-Interviews, Vergleich der Vorher-Nachher-Conversion über längere Zeiträume. Diese Methode ist nicht statistisch sauber wie ein A/B-Test, aber sie ist deutlich ehrlicher als ein unterpowerten Test, der Rauschen für Signal hält.

Welche Tools nutzt ihr für A/B-Testing?

VWO, Convert oder Optimizely für die Test-Mechanik, GA4 und PostHog für die Auswertung, Server-Side-GTM für die saubere Daten-Erfassung. Die Wahl hängt vom Stack und Volumen ab.

A/B-Testing im B2B – tragfähig validieren

Diese Seite beschreibt, wie wir A/B-Testing bei DAMA Solutions verstehen, welche statistischen Voraussetzungen ein tragfähiger Test erfüllen muss und wie sich A/B-Testing mit CRO und Landingpage-Arbeit verzahnt.

Die unangenehme Wahrheit über A/B-Tests im B2B

Die meisten B2B-Unternehmen haben nicht das Traffic-Volumen, das für statistisch valide A/B-Tests nötig wäre. Eine B2B-Landingpage mit zweitausend monatlichen Besuchern und einer Conversion-Rate von drei Prozent generiert sechzig Conversions pro Monat – verteilt auf zwei Varianten dreißig. Eine Erkennung einer zwanzigprozentigen Verbesserung bräuchte je nach Annahme mehrere Monate Test-Laufzeit. Wer trotzdem nach zwei Wochen Ergebnisse interpretiert, interpretiert Zufall.

Das ist keine Schwäche von A/B-Testing, sondern ein statistisches Grundprinzip. Die ehrliche Konsequenz: Bei niedrigem Volumen ist A/B-Testing entweder mit längerer Laufzeit zu betreiben – oder durch andere Methoden zu ersetzen.

Was einen tragfähigen Test ausmacht

Erfolgsmetrik vor Testbeginn

Die Metrik, auf die getestet wird, muss vor Testbeginn definiert sein – und es darf nur eine sein. Wer nach Testende verschiedene Metriken prüft und die signifikante auswählt, betreibt p-Hacking. Die Erfolgsmetrik ist die qualifizierte Anfrage, nicht der Klick auf den Button. Zwischen-Metriken sind Diagnose-Größen, keine Test-Endpunkte.

Ausreichende Stichprobe

Vor jedem Test berechnen wir die benötigte Stichprobengröße auf Basis der aktuellen Conversion-Rate, der gewünschten Erkennungsschwelle und des gewählten Signifikanzniveaus (in der Regel 95 Prozent). Liegt die benötigte Stichprobe über dem realistisch in zwei bis vier Wochen erreichbaren Volumen, ist der Test nicht durchführbar – Punkt.

Vollständige Wirtschaftszyklen

Tests laufen mindestens über einen vollständigen Wirtschaftszyklus – bei B2B in der Regel mehrere Werktags-Wochen. Sonst werden Wochenend-Verhalten, Feiertage und Saison-Effekte als Varianten-Effekte fehlinterpretiert. Tests vorzeitig zu stoppen, weil eine Variante führt, ist die häufigste Quelle falscher Schlussfolgerungen.

Eine Variable pro Test

Wer Headline, Bild und Form gleichzeitig ändert, weiß am Ende nicht, was die Wirkung erzeugt hat. Multivariate Tests setzen noch höhere Volumen-Anforderungen voraus. Im B2B-Kontext arbeiten wir fast immer mit einer Variable pro Test – sauber priorisiert nach erwartetem Effekt.

Alternativen, wenn das Volumen nicht reicht

Bei niedrigem Traffic arbeiten wir mit zwei Alternativen – beide weniger statistisch sauber als ein A/B-Test, aber deutlich ehrlicher als ein unterpowerten Test.

Begründetes Redesign mit qualitativer Validierung

Die alte Variante wird durch eine neue ersetzt. Die Conversion-Rate wird über mehrere Wochen vor und nach dem Wechsel verglichen. Parallel prüfen wir per Session-Recording und Nutzer-Interviews, ob die beobachteten Verhaltensänderungen mit der Hypothese übereinstimmen. Das ist kein Beweis, aber ein deutlich besseres Signal als Bauchgefühl-Optimierung.

Sequentielle Tests über lange Zeiträume

Mehrere Änderungen werden sequentiell ausgerollt und über jeweils mehrere Monate beobachtet. Die Aussagekraft ist schwächer als beim A/B-Test, aber in Kombination mit qualitativen Signalen tragfähig genug für Investitionsentscheidungen.

Was wir nie tun

Tests vorzeitig stoppen, weil eine Variante „führt“. Erfolgs-Metriken nach Testende ändern. Tests ohne vorher berechnete Stichprobengröße starten. Mehrere Variablen gleichzeitig testen und das Ergebnis einem einzelnen Faktor zuschreiben. Test-Aktivität als Wert verkaufen, wenn die statistische Tragfähigkeit fehlt. CRO ist eine Disziplin, kein Theater.

Häufige Fragen

Hängt von Conversion-Rate und gewünschter Erkennungsschwelle ab. Faustregel: Für eine Conversion-Rate von zwei Prozent und eine erkennbare Verbesserung von zwanzig Prozent braucht man etwa zehntausend Besucher pro Variante. Bei deutlich niedrigerem Volumen ist der ehrliche Weg nicht der Test, sondern das begründete Redesign.

Wenn Sie wissen wollen, ob Ihr Traffic-Volumen für valides A/B-Testing reicht – und welche Methode bei welchem Volumen tragfähig ist – klären wir das in der Wachstumsanalyse. Den größeren Rahmen finden Sie auf der Conversion-Übersicht.

A/B-Testing. Validierung statt Meinung.

Die unangenehme Wahrheit über A/B-Tests im B2B

Was einen tragfähigen Test ausmacht

Erfolgsmetrik vor Testbeginn

Ausreichende Stichprobe

Vollständige Wirtschaftszyklen

Eine Variable pro Test

Alternativen, wenn das Volumen nicht reicht

Begründetes Redesign mit qualitativer Validierung

Sequentielle Tests über lange Zeiträume

Was wir nie tun

Häufige Fragen

Vertiefende Unterseiten.

Landingpage-Optimierung

Conversion-Rate-Optimierung (CRO)

Lead-Qualifizierung

Lassen Sie uns über Ihr Wachstum sprechen.

A/B-Testing. Validierung statt Meinung.

Die unangenehme Wahrheit über A/B-Tests im B2B

Was einen tragfähigen Test ausmacht

Erfolgsmetrik vor Testbeginn

Ausreichende Stichprobe

Vollständige Wirtschaftszyklen

Eine Variable pro Test

Alternativen, wenn das Volumen nicht reicht

Begründetes Redesign mit qualitativer Validierung

Sequentielle Tests über lange Zeiträume

Was wir nie tun

Häufige Fragen

Wie viel Traffic braucht ein valider A/B-Test?

Wie lange sollte ein Test laufen?

Was tut ihr, wenn das Volumen für A/B-Tests nicht reicht?

Welche Tools nutzt ihr für A/B-Testing?

Vertiefende Unterseiten.

Landingpage-Optimierung

Conversion-Rate-Optimierung (CRO)

Lead-Qualifizierung

Lassen Sie uns über Ihr Wachstum sprechen.