A/B-Tests und statistische Signifikanz

Jazmie Jamaludin

Jedes Unternehmen, das online vermarktet, erreicht irgendwann einen Punkt, an dem Meinungen nicht mehr ausreichen. Jemand möchte die Überschrift in Grün, jemand anderes in Blau, und die einzige ehrliche Antwort ist, dass niemand wirklich weiß, welche Version mehr verkaufen wird, bis sie getestet wurde. A/B-Tests sind die Disziplin, die diese Diskussion durch Fakten ersetzt. Es ist eine einfache Idee: Man zeigt die eine Version der Hälfte der Besucher, eine andere Version der anderen Hälfte und misst, welche besser abschneidet. Die Komplikation und der Grund, warum so viele Tests die Ausführenden in die Irre führen, ist, dass das zuverlässige Messen von „besser“ schwieriger ist, als es aussieht.

Dieser Leitfaden erklärt, wie A/B-Tests in der Praxis funktionieren, was statistische Signifikanz wirklich bedeutet und wie man die Fallstricke vermeidet, die Geschäftsinhaber dazu verleiten, aufgrund von nicht realen Ergebnissen zu handeln. Sie benötigen keine Mathematikkenntnisse, um ihm zu folgen. Sie brauchen einen klaren Kopf, die Bereitschaft zu warten und ein gesundes Misstrauen gegenüber jedem Ergebnis, das verdächtig schnell eintrifft. Am Ende werden Sie in der Lage sein, ein Testergebnis zu lesen und zu beurteilen, ob es Ihr Vertrauen verdient.

Was ein A/B-Test eigentlich macht

Ein A/B-Test vergleicht zwei Versionen einer einzigen Sache anhand eines Ziels. Die ursprüngliche Version wird normalerweise als Kontrollversion bezeichnet, die neue Version als Variante. Sie teilen Ihren eingehenden Traffic zufällig auf, sodass jeder Besucher eine Version und nur eine Version sieht. Dann zählen Sie, wie viele Personen in jeder Gruppe die gewünschte Aktion ausführen, sei es ein Kauf, eine Anmeldung, ein Klick oder eine Formularübermittlung. Die Version mit der höheren Abschlussrate scheint der Gewinner zu sein.

Das entscheidende Wort ist „scheint“. Zwei Gruppen von echten Menschen werden sich fast nie identisch verhalten, selbst wenn ihnen genau die gleiche Seite gezeigt wird. Wenn Sie Ihr Publikum halbieren und beiden Hälften das identische Design zeigen würden, würde die eine Hälfte immer noch zu einem geringfügig anderen Kurs konvertieren als die andere, rein zufällig. Dies ist das zentrale Problem, das A/B-Tests lösen müssen: Wie unterscheidet man zwischen einer echten Verbesserung und einer gewöhnlichen zufälligen Variation, die wie eine solche aussieht?

95 %

Ein weit verbreiteter Konfidenzschwellenwert bedeutet, dass Sie eine Wahrscheinlichkeit von etwa 1 zu 20 akzeptieren, dass das Ergebnis ein Fehlalarm ist.

Quelle: Nielsen Norman Group

Warum statistische Signifikanz wichtig ist

Statistische Signifikanz ist das Werkzeug, das Signal von Rauschen trennt. Wenn eine Testplattform Ihnen mitteilt, dass ein Ergebnis statistisch signifikant ist, macht sie eine spezifische Aussage: Wenn es wirklich keinen Unterschied zwischen den beiden Versionen gäbe, wäre ein so großer Unterschied unwahrscheinlich, allein durch Zufall aufzutreten. Der gebräuchlichste Schwellenwert ist ein Konfidenzniveau von 95 Prozent, was bedeutet, dass Sie eine fünfprozentige Wahrscheinlichkeit akzeptieren, durch Zufälligkeit getäuscht zu werden.

Diese fünf Prozent sind kein Rundungsfehler, den Sie ignorieren können. Es bedeutet, dass, wenn Sie zwanzig Tests durchführen, bei denen nichts Reales geschieht, im Durchschnitt einer davon allein durch Glück ein „signifikantes“ Ergebnis zeigen wird. Deshalb feiern disziplinierte Teams einen einzelnen signifikanten Test nicht als Evangelium. Sie prüfen, ob das Ergebnis plausibel ist, ob es sich wiederholt und ob die Größe der Verbesserung groß genug ist, um für das Unternehmen relevant zu sein.

Konfidenzniveau und das akzeptierte Risiko

Die Wahl eines Konfidenzniveaus ist eigentlich die Wahl, wie viel Risiko eines falsch positiven Ergebnisses Sie einzugehen bereit sind. Ein Schwellenwert von 90 Prozent erreicht die Signifikanz schneller, ist aber häufiger falsch. Ein Schwellenwert von 99 Prozent ist wesentlich vorsichtiger, erfordert aber viel mehr Traffic und Geduld. Für die meisten alltäglichen Geschäftsentscheidungen ist 95 Prozent ein vernünftiges Gleichgewicht. Wichtig ist, den Schwellenwert vor Beginn des Tests festzulegen, nicht nachdem Sie die Zahlen gesehen haben und nach einer Ausrede suchen, um den Test zu beenden.

Stichprobengröße und warum sich Geduld auszahlt

Der häufigste Grund, warum A/B-Tests Menschen in die Irre führen, ist, dass sie zu früh abgebrochen werden. Zu Beginn eines Tests schwanken die Konversionsraten Ihrer beiden Gruppen stark. Eine Version mag am ersten Tag mit großem Vorsprung führen, am dritten Tag zurückfallen und am fünften Tag wieder aufholen. Diese Schwankungen sind normal und nehmen ab, je mehr Besucher am Test teilnehmen. Auf einen frühen Vorsprung zu reagieren, ist wie das Beurteilen einer Münze als voreingenommen nach drei Mal Kopf hintereinander.

Bevor Sie einen Test starten, sollten Sie abschätzen, wie viele Besucher und Konversionen Sie benötigen, um einen aussagekräftigen Unterschied zu erkennen. Dies wird als erforderliche Stichprobengröße bezeichnet, und die meisten Test-Tools enthalten einen Rechner dafür. Je kleiner die Verbesserung, die Sie erkennen möchten, desto mehr Traffic benötigen Sie. Das Erkennen eines großen, offensichtlichen Unterschieds erfordert relativ wenige Daten. Das Erkennen einer subtilen Verbesserung von ein oder zwei Prozent kann Wochen oder Monate Traffic in Anspruch nehmen.

Wie die Effektgröße die benötigten Daten beeinflusst
Gewünschte Verbesserung	Relativer Datenbedarf
Groß und offensichtlich	Relativ klein; Ergebnisse liegen schnell vor
Moderat	Aussagekräftig; Laufzeit von Wochen erwarten
Klein und subtil	Sehr groß; bei geringem Traffic möglicherweise unpraktisch

Das Problem des "Spähens"

Es ist verlockend, einen laufenden Test mehrmals täglich zu überprüfen und ihn in dem Moment zu stoppen, in dem er die Signifikanzschwelle überschreitet. Diese Angewohnheit, bekannt als "Spähen", zerstört stillschweigend die Zuverlässigkeit Ihrer Ergebnisse. Jedes Mal, wenn Sie überprüfen und einen Abbruch in Betracht ziehen, geben Sie dem Zufall eine weitere Chance, Ihnen ein falsch positives Ergebnis zu liefern. Der disziplinierte Ansatz besteht darin, Ihre Stichprobengröße im Voraus festzulegen, den Test bis zu diesem Punkt laufen zu lassen und erst dann das Ergebnis abzulesen. Wenn Ihr Tool geeignete sequentielle Testmethoden unterstützt, ist das Spähen sicherer, aber die sicherste Standardeinstellung ist einfach abzuwarten.

Einen testwürdigen Test gestalten

Ein guter Test beginnt mit einer klaren Hypothese, nicht mit einem vagen Wunsch, etwas zu ändern. Eine Hypothese besagt, was Sie ändern, was Sie erwarten und warum. Zum Beispiel: „Das Verschieben der Kundenrezensionen über den Kaufbutton wird die Käufe erhöhen, weil die Kunden vor ihrer Entscheidung Vertrauen gewinnen.“ Dieses Format zwingt Sie dazu, über den Mechanismus nachzudenken, und es gibt Ihnen etwas zu lernen, ob der Test gewinnt oder verliert.

Testen Sie immer nur eine sinnvolle Änderung, wenn Sie Ursache und Wirkung verstehen möchten. Wenn Sie Überschrift, Bild, Schaltflächenfarbe und Preis auf einmal ändern und die Konversionen steigen, werden Sie nie erfahren, welche Änderung die Wirkung hatte. Das Testen einzelner Variablen ist langsamer, aber es schafft echtes Wissen, das Sie wiederverwenden können. Wenn Sie einfach die bestmögliche Kombination wünschen und ausreichend Traffic haben, existieren fortgeschrittenere Methoden. Für die meisten Unternehmen ist jedoch eine klare Änderung pro Test die richtige Disziplin.

Das Ergebnis ehrlich lesen

Wenn ein Test abgeschlossen ist, sind drei Fragen entscheidend. Erstens: Ist das Ergebnis statistisch signifikant bei dem von Ihnen im Voraus festgelegten Schwellenwert? Zweitens: Ist die Verbesserung groß genug, um den Aufwand der Implementierung und Pflege zu rechtfertigen? Eine statistisch reale Verbesserung um einen Bruchteil eines Prozents rechtfertigt möglicherweise nicht den Aufwand. Drittens: Ergibt das Ergebnis angesichts dessen, was Sie über Ihre Kunden wissen, Sinn? Ein bizarres, unerklärliches Gewinnergebnis verdient einen zweiten Test, bevor Sie ihm vertrauen.

Es ist auch wichtig zu bedenken, dass ein Test, der keinen signifikanten Unterschied zeigt, kein Misserfolg ist. Es ist Information. Es sagt Ihnen, dass die von Ihnen geglaubte Änderung nichts bewirkt hat, was Sie davor bewahrt, etwas Sinnloses einzuführen, und Ihnen die Freiheit gibt, eine vielversprechendere Idee zu testen. Die Teams, die sich am schnellsten verbessern, sind diejenigen, die unschlüssige Ergebnisse als normalen, nützlichen Teil des Prozesses betrachten, anstatt als eine Enttäuschung, die man verbergen muss.

1 zu 20

echten Gewinner imitieren kann, obwohl sich nichts wirklich geändert hat.

Quelle: Nielsen Norman Group

Häufige Fehler, die Tests ruinieren

Neben dem zu frühen Abbruch und dem Spähen treten immer wieder einige Fehler auf. Das Durchführen eines Tests in einem ungewöhnlichen Zeitraum, wie zum Beispiel während eines großen Ausverkaufs oder eines Feiertags, kann zu Ergebnissen führen, die in normalen Wochen nicht zutreffen. Eine ungleichmäßige Verteilung des Traffics auf die einzelnen Versionen stört die zufällige Aufteilung und verzerrt das Ergebnis. Wenn ein Test so lange läuft, dass dieselben wiederkehrenden Besucher an verschiedenen Tagen unterschiedliche Versionen sehen, kann dies den Vergleich verwischen. Und das Messen des falschen Ziels, wie z. B. Klicks statt abgeschlossener Käufe, kann eine Variante zum Sieger küren, die zwar viel beschäftigt aussieht, aber nichts einbringt.

Der vielleicht schädlichste Fehler ist das Testen trivialer Änderungen, während die Teile des Erlebnisses ignoriert werden, die die Kunden wirklich frustrieren. A/B-Tests sind ein Präzisionsinstrument. Es auf die Farbe eines unwichtigen Links zu richten, während ein verwirrender Checkout im Stillen Verkäufe kostet, ist eine schlechte Nutzung des Tools. Kombinieren Sie Tests mit einem ehrlichen Blick darauf, wo Kunden Schwierigkeiten haben, und Sie werden weitaus bessere Experimente zur Durchführung auswählen. Das Verständnis des Unterschieds zwischen einem echten Muster und einem Zufall hilft hier ebenfalls, weshalb es sich lohnt, zu lernen, Daten sorgfältig zu lesen, anstatt auf jede Schwankung zu reagieren.

Was zuerst testen, wenn Ideen den Traffic übersteigen

Die meisten Unternehmen haben weitaus mehr testenswerte Ideen als Besucher, um sie zu testen. In diesem Fall spielt die Reihenfolge, in der Experimente durchgeführt werden, eine enorme Rolle, da jeder Test Wochen an Traffic verbraucht, der für eine wertvollere Frage hätte verwendet werden können. Eine sinnvolle Priorisierungsmethode besteht darin, für jede Idee drei Dinge abzuwägen: wie sicher Sie sind, dass sie funktionieren wird, wie groß die potenzielle Verbesserung ist und wie einfach sie zu implementieren ist. Ideen, die bei allen dreien gut abschneiden, sollten zuerst umgesetzt werden, und clever klingende Änderungen, die Wochen für einen winzigen möglichen Gewinn in Anspruch nehmen würden, sollten warten, vielleicht für immer.

Es lohnt sich auch, dort zu testen, wo der Traffic und das Geld bereits vorhanden sind. Ein Experiment auf einer Seite, die Tausende von Menschen sehen und wo tatsächlich Käufe stattfinden, wird viel schneller zu einem Ergebnis führen und viel wichtiger sein als dasselbe Experiment in einer ruhigen Ecke der Website. Die Konzentration Ihres Testbudgets auf die wenigen Seiten, die das Geschäft tragen, ist eine der einfachsten Möglichkeiten, mehr Wert aus einer begrenzten Anzahl von Experimenten zu ziehen. Ziel ist es nicht, alles zu testen, sondern die wenigen Dinge zu testen, die die Zahlen wirklich beeinflussen könnten, und aus jedem einzelnen zu lernen, bevor der nächste Traffic-Anteil eingesetzt wird.

Dokumentieren Sie, was Sie lernen, ob Sieg oder Niederlage

Die einzige Gewohnheit, die Teams, die sich verbessern, von Teams, die einfach nur beschäftigt bleiben, unterscheidet, ist das Aufschreiben dessen, was jeder Test sie gelehrt hat. Eine kurze Aufzeichnung der Hypothese, des Ergebnisses und Ihrer Interpretation verwandelt eine lose Reihe von Experimenten in akkumuliertes Wissen. Über ein Jahr hinweg verhindert diese Aufzeichnung, dass Sie bereits durchgeführte Tests wiederholen, offenbart Muster in dem, worauf Ihre Kunden reagieren, und gibt neuen Teammitgliedern einen schnellen Weg, um zu verstehen, was bereits versucht wurde. Ohne sie verpuffen hart erarbeitete Lektionen, und Unternehmen testen immer wieder dieselben müden Ideen, weil sich niemand mehr daran erinnert, wie sie beim letzten Mal ausgegangen sind.

Alles zusammenfügen

Eine zuverlässige A/B-Testgewohnheit beruht auf einer kurzen Liste von Prinzipien. Bilden Sie eine klare Hypothese. Legen Sie Ihre Konfidenzschwelle und die erforderliche Stichprobengröße vor dem Start fest. Lassen Sie den Test bis zum Abschluss laufen, ohne zu „spähen“. Beurteilen Sie das Ergebnis anhand von Signifikanz, Größe und Plausibilität zusammen. Und behandeln Sie unschlüssige Ergebnisse als nützliches Wissen und nicht als verschwendete Mühe. Befolgen Sie diese Prinzipien, und Ihre Experimente werden sich stetig zu einer Website entwickeln, die wirklich besser konvertiert, anstatt zu einem Friedhof von Änderungen, die sich damals richtig anfühlten.

Die Belohnung für diese Disziplin ist Vertrauen. Wenn Sie einen ordnungsgemäßen Test durchgeführt haben, können Sie eine Entscheidung treffen und dazu stehen, wissend, dass sie auf Beweisen und nicht auf der lautesten Stimme im Raum beruht. Über Monate und Jahre hinweg ist diese gesammelte Gewissheit das, was Unternehmen, die sich methodisch verbessern, von denen unterscheidet, die von einem Redesign zum nächsten stolpern. Es schließt sich natürlich an umfassendere Analysen an, und Sie können in unserem Leitfaden zu Datenanalysen für kleinere Unternehmen sehen, wie es in eine breitere Messstrategie passt.

Häufig gestellte Fragen

Wie lange sollte ein A/B-Test laufen?+

Lassen Sie ihn laufen, bis er die im Voraus berechnete Stichprobengröße erreicht hat, und idealerweise für mindestens einen oder zwei vollständige Geschäftszyklen, damit sowohl das Wochentags- als auch das Wochenendverhalten berücksichtigt werden. Brechen Sie nicht ab, sobald es signifikant aussieht.

Was beweist die statistische Signifikanz eigentlich?+

Es besagt, dass ein so großer Unterschied unwahrscheinlich wäre, wenn die beiden Versionen tatsächlich gleich wären. Es garantiert nicht, dass das Ergebnis real ist oder für immer Bestand hat, weshalb es ratsam ist, wichtige Erfolge zu wiederholen.

Kann ich testen, wenn ich wenig Traffic habe?+

Ja, aber Sie können nur zuverlässig große Unterschiede erkennen. Bei begrenztem Traffic sollten Sie sich auf mutige Änderungen an Seiten mit hoher Wirkung konzentrieren, anstatt auf subtile Anpassungen, und akzeptieren, dass Tests länger dauern werden, um zu einem vertrauenswürdigen Ergebnis zu gelangen.

Ist es schlecht, wenn mein Test keinen Gewinner zeigt?+

Überhaupt nicht. Ein unschlüssiges Ergebnis sagt Ihnen, dass die Änderung nicht viel bewirkt hat, was Sie davor bewahrt, etwas Sinnloses zu implementieren, und Sie auf vielversprechendere Ideen hinweist, die als Nächstes getestet werden sollen.

Referenzen

Nielsen Norman Group, Artikel über A/B-Tests und statistische Zuverlässigkeit in der Benutzerforschung, nngroup.com
Google Analytics-Hilfe, Dokumentation zu Experimenten und der Messung der Website-Leistung, support.google.com

Um tiefer einzusteigen, erkunden Sie unsere umfassenderen Ressourcen zum Thema Umwandlung von Analysen in Maßnahmen und die Prinzipien hinter A/B-Tests für Online-Shops. Es könnte auch nützlich sein zu lesen, wie sorgfältige Experimente datengesteuerte Verbesserungen im Laufe der Zeit unterstützen.

Wenn Sie Unterstützung bei der Einrichtung zuverlässiger Experimente wünschen, erfahren Sie mehr über unsere Datenanalyse-Services oder kontaktieren Sie uns, um Ihre Ziele zu besprechen.

Zurück zum Blog

Artikel wurde in den Warenkorb gelegt

A/B-Tests und statistische Signifikanz

Was ein A/B-Test eigentlich macht

Warum statistische Signifikanz wichtig ist

Konfidenzniveau und das akzeptierte Risiko

Stichprobengröße und warum sich Geduld auszahlt

Das Problem des "Spähens"

Einen testwürdigen Test gestalten

Das Ergebnis ehrlich lesen

Häufige Fehler, die Tests ruinieren

Was zuerst testen, wenn Ideen den Traffic übersteigen

Dokumentieren Sie, was Sie lernen, ob Sieg oder Niederlage

Alles zusammenfügen

Häufig gestellte Fragen

Referenzen

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.

Land/Region

Sprache

Was ein A/B-Test eigentlich macht

Warum statistische Signifikanz wichtig ist

Konfidenzniveau und das akzeptierte Risiko

Stichprobengröße und warum sich Geduld auszahlt

Das Problem des "Spähens"

Einen testwürdigen Test gestalten

Das Ergebnis ehrlich lesen

Häufige Fehler, die Tests ruinieren

Was zuerst testen, wenn Ideen den Traffic übersteigen

Dokumentieren Sie, was Sie lernen, ob Sieg oder Niederlage

Alles zusammenfügen

Häufig gestellte Fragen

Referenzen

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.