Erfolgsmessung im Marketing - Folge 23: Warum ein A/B-Test unbrauchbar sein kann (interaktive Effekte)

Ich hatte mich in Folge 22 mit der Frage beschäftigt, wie Sie anhand eines A/B-Tests Kausalität nachweisen können. Ich kam für das Zahlenbeispiel zu einem positiven Ergebnis (Kausalität ja).

Ein derartiger Kausalitätsbeweis setzt voraus, dass der A/B-Test sachgemäß durchgeführt wird. Hierzu gehört erstens die zufallsabhängige Gruppeneinteilung. Zweitens brauchen Sie ein Kriterium, nach dem Sie entscheiden können, ob das Ergebnis des Gruppenvergleichs systematisch oder zufallsbedingt ist. Dieses Kriterium war im Zahlenbeispiel aus Folge 22 der zweiseitige Permutationstest.

Ich komme jetzt zu einer dritten Vorbedingung, die die Zusammensetzung der in den A/B-Test einbezogenen Einheiten betrifft. Diese Vorbedingung bezieht sich im Zahlenbeispiel aus Folge 22 auf alle 70 Leads zusammen (Testgruppe plus Kontrollgruppe).

Eine kausale Interpretation des A/B-Tests ist nur statthaft, wenn der Untersuchungsgegenstand des A/B-Tests sinnvoll abgegrenzt ist und es daher keinen vernünftigen Grund zu der Annahme oder Vermutung gibt, die in den A/B-Test einbezogenen Einheiten seien zu heterogen und müssten differenzierter betrachtet werden.

Diese dritte Vorbedingung läuft darauf hinaus, dass es für die in den A/B-Test einbezogenen Einheiten entweder keine oder nur ordinale interaktive Effekte geben darf.

Ich werde die dritte Bedingung jetzt ausführlich erläutern. Hierzu beginne ich mit der Frage, was ein A/B-Test über die Wirkungsrichtung und die Effektstärke aussagen kann. Anschließend beschäftige ich mich mit segmentierten Auswertungen der für einen A/B-Test erhobenen Daten. Ich unterscheide vier Fälle und überlege, was diese Konstellationen für die Aussagekraft von A/B-Tests bedeuten. Zum Abschluss fasse ich die Ergebnisse zusammen.

Wirkungsrichtung und Effektstärke

Im A/B-Test aus Folge 22 mit insgesamt 70 Leads ergaben sich als durchschnittliche Konversionsraten 0,74 für die Testgruppe und 0,49 für die Kontrollgruppe. Alle Leads aus der Testgruppe erhielten ein White Paper, alle Leads aus der Kontrollgruppe nicht.

Beim A/B-Test war die Gruppeneinteilung der insgesamt 70 Leads zufällig. Die für die Kontrollgruppe (35 Leads) ermittelte durchschnittliche Konversionsrate in Höhe von 0,49 wäre daher auch zu erwarten gewesen, wenn alle 70 Leads kein White Paper erhalten hätten. Der linke Punkt im obigen Diagramm hat daher 0,49 als Y-Wert.

Entsprechendes gilt für den rechten Punkt im obigen Diagramm. Die für die Testgruppe (35 Leads) ermittelte durchschnittliche Konversionsrate in Höhe von 0,74 wäre auch zu erwarten gewesen, wenn alle 70 Leads ein White Paper erhalten hätten. Der rechte Punkt im obigen Diagramm hat daher 0,74 als Y-Wert.

Die durchschnittliche Konversionsrate für den Fall »35 von 70 Leads mit White Paper« ist gleich (0,74*35+0,49*35)/70 = 0,62 (gerundet). Dieser Wert ergibt sich auch anhand der im obigen Diagramm gezeichneten Geraden Y = 0,49 + 0,25*X mit X = 0,5 (35 von 70).

Gemäß Diagramm würde die durchschnittliche Konversionsrate steigen, wenn der Anteil der Leads mit White Paper zunimmt. Hierbei spielt es keine Rolle, ob der X-Wert im Ausgangszustand relativ klein oder relativ groß ist (zum Beispiel X = 0,2 oder 0,8). Die Wirkung ist immer positiv.

Die Effektstärke gibt an, wie stark die Wirkung ist. Im obigen Diagramm ergibt sich die Effektstärke aus der Steigung der Geraden (0,25). Erhöht sich der X-Wert (Anteil der Leads mit White Paper) um eine Einheit, so steigt der Y-Wert (durchschnittliche Konversionsrate) um 0,25 Einheiten.

Eine Aussage über die Effektstärke ist weitergehend als eine Aussage über die Wirkungsrichtung (positiv oder negativ). Wenn Sie die Effektstärke kennen, dann kennen Sie auch die Wirkungsrichtung.

Die Bedeutung der Segmentierung

Angenommen, die in den A/B-Test einbezogenen Leads ließen sich anhand eines bestimmten Merkmals in zwei Segmente einteilen. Dieses Merkmal kann Ihnen bekannt sein oder nicht.

Stellen Sie sich zum Beispiel vor, Sie verkaufen eine Produktinnovation. Vielleicht würden Ihre Aussichten auf einen erfolgreichen Geschäftsabschluss davon abhängen, ob die Organisationskultur des betreffenden Leads eher innovativ oder eher konservativ ist. Denkbar wären auch andere Merkmale, zum Beispiel eine Segmentierung nach Branchenzugehörigkeit oder Größenklasse.

Welche Konsequenzen ergeben sich, wenn Ihre Daten zwei Segmente enthalten und Sie diese Segmente bei Ihrem A/B-Test unberücksichtigt lassen?

Um diese Frage zu beantworten, unterteile ich die für den A/B-Test erhobenen Daten in vier Gruppen:

  • Testgruppe / konservative Leads
  • Testgruppe / innovative Leads
  • Kontrollgruppe / konservative Leads
  • Kontrollgruppe / innovative Leads

Für jede dieser Gruppen berechne ich die durchschnittliche Konversionsrate separat. Hierdurch können sich vier bedeutende Konstellationen ergeben.

1. Konstellation: Wirkungsrichtung gleich, Effektstärke gleich

Das Diagramm ist nach dem gleichen Prinzip erstellt wie das erste Diagramm dieses Beitrags. Der Unterschied besteht lediglich darin, dass ich hier zwei Auswertungen zusammengefasst habe:

  • Kontrollgruppe / innovative Leads im Vergleich zu Testgruppe / innovative Leads (rot)
  • Kontrollgruppe / konservative Leads im Vergleich zu Testgruppe / konservative Leads (grün)

Hätte zum Beispiel jedes innovative Lead ein White Paper erhalten, so entspräche die durchschnittliche Konversionsrate dem roten Punkt rechts. Wären dagegen alle innovativen Leads ohne White Paper geblieben, so würde der rote Punkt links die durchschnittliche Konversionsrate wiedergeben.

Beide Linien haben durchgehend eine positive Steigung. Die Wirkungsrichtung ist daher für beide Segmente gleich. Außerdem verlaufen beide Linien parallel, jeweils mit konstanter Steigung. Die Effektstärke ist daher für beide Segmente gleich.

In diesem Fall steht der A/B-Test (erstes Diagramm mit der schwarzen Linie) im Einklang mit der segmentierten Auswertung:

  • Die laut A/B-Test bestehende positive Wirkungsrichtung gilt für beide Segmente
  • Die anhand des A/B-Tests gemessene Effektstärke gilt für beide Segmente

2. Konstellation: Wirkungsrichtung gleich, Effektstärke unterschiedlich

Beide Linien haben durchgehend eine positive Steigung. Die Wirkungsrichtung ist daher für beide Segmente gleich. Beide Linien haben jetzt aber eine unterschiedliche Steigung. Die Effektstärke ist somit für beide Segmente unterschiedlich.

Die 2. Konstellation (Wirkungsrichtung gleich, Effektstärke unterschiedlich) wird als ordinale Interaktion bezeichnet.

Für den A/B-Test, bei dem die innovativen und konservativen Leads zusammen ausgewertet wurden bedeutet die ordinale Interaktion, dass die Effektstärke davon abhängt, welchen Anteil die innovativen Leads haben. Die Effektstärke ist gemäß Diagramm bei den innovativen Leads größer als bei den konservativen Leads. Je größer der Anteil der innovativen Leads, umso größer ist somit die auf Basis des A/B-Tests ermittelte Effektstärke (die Steigung der schwarzen Linie im ersten Diagramm dieses Beitrags).

In Folge 22 hatte ich für meinen A/B-Test einen zweiseitigen und einen einseitigen Signifikanztest gerechnet.

Für meinen zweiseitigen Test lauteten die Hypothesen:

  • HO - Das White Paper ist wirkungslos, die beobachtete Mittelwertdifferenz ist zufällig aufgetreten (Kausalität nein)
  • H1 - Das White Paper hat einen positiven oder negativen Einfluss auf die durchschnittliche Konversionsrate (Kausalität ja)

Mit dem zweiseitigen Test habe ich demnach geprüft, ob das White Paper eine positive oder negative Wirkung hat.

Für meinen einseitigen Test lauteten die Hypothesen:

  • HO - Das White Paper ist wirkungslos, die beobachtete Mittelwertdifferenz ist zufällig aufgetreten (Kausalität nein)
  • H1 - Das White Paper hat einen positiven Einfluss auf die durchschnittliche Konversionsrate (Kausalität ja)

Mit dem einseitigen Test habe ich die vermutete Wirkungsrichtung geprüft. Beide Signifikanztests lassen demnach die Frage nach der Effektstärke offen.

A/B-Tests sind für Rückschlüsse auf die Effektstärke im Allgemeinen ungeeignet. Das Problem sind die interaktiven Effekte.

3. Konstellation: Wirkungsrichtung unterschiedlich

Laut Diagramm hat das White Paper bei den konservativen Leads eine negative Wirkung auf die Konversionsrate. Dies steht im Widerspruch zum Ergebnis des A/B-Tests, nach dem das White Paper eine positive Wirkung auf die Konversionsrate haben soll (die Steigung der schwarzen Linie im ersten Diagramm dieses Beitrags ist positiv).

Die im Diagramm dargestellte Konstellation - positive Wirkung für das erste Segment, negative Wirkung für das zweite Segment - wird als disordinale Interaktion bezeichnet.

Der A/B-Test ist in diesem Fall unbrauchbar, bedingt durch die falsche Annahme, es gäbe für die in den A/B-Test einbezogenen Leads eine einheitliche Wirkungsrichtung. Die beim A/B-Test gefundene positive Wirkungsrichtung besteht in Wirklichkeit nur für die innovativen Leads.

Im dargestellten Beispiel einer disordinalen Interaktion hängt die beim A/B-Test gefundene Wirkungsrichtung davon ab, wie stark die innovativen Leads vertreten sind.

Die praktische Bedeutung dieses Beispiels liegt darin, dass häufig nicht alle Segmentierungsmöglichkeiten bekannt sind und dass daher die Gefahr besteht, eine disordinale Interaktion zu übersehen.

Die in einen A/B-Test einbezogenen Leads sollten daher eine möglichst homogene Gruppe bilden. Fragwürdig sind insbesondere A/B-Tests, bei denen Leads aus unterschiedlichen Marktsegmenten vermengt werden.

4. Konstellation: Simpson-Paradox

Das Simpson-Paradox zeigt, dass ein A/B-Test zu einer völlig verkehrten Einschätzung der Wirkungsrichtung führen kann: Wirkungsrichtung für beide Segmente negativ, Wirkungsrichtung laut A/B-Test trotzdem positiv.

Für das Zahlenbeispiel aus Folge 22 könnte sich das Simpson-Paradox folgendermaßen ergeben:

  • Bei den 35 Leads der Testgruppe gab es 26 Konversionen
  • Bei den 35 Leads der Kontrollgruppe gab es 17 Konversionen
  • Zur Testgruppe gehören 4 konservative und 31 innovative Leads mit 0 bzw. 26 Konversionen
  • Zur Kontrollgruppe gehören 31 konservative und 4 innovative Leads mit 13 bzw. 4 Konversionen
Konservative Leads     Innovative Leads     Alle Leads
T         0 von 4 26 von 31 26 von 35
K         13 von 31 4 von 4 17 von 35
Konservative Leads     Innovative Leads     Alle Leads
T         0 0,84 0,74
K         0,42 1 0,49

Die Wirkungsrichtung ist gemäß Diagramm sowohl für die innovativen als auch für die konservativen Leads negativ. Der A/B-Test (innovative und konservative Leads zusammen) hat in diesem Fall für beide Segmente zu einer Fehleinschätzung geführt.

Ergebnis

Ein sachgemäßer A/B-Test erfüllt drei Bedingungen:

  • Jede in den A/B-Test einbezogene Einheit hat die gleiche Chance, in die Testgruppe zu gelangen (zufallsabhängige Gruppeneinteilung)
  • Es gibt ein Kriterium, nach dem zwischen zufallsbedingten und systematischen Gruppenunterschieden differenziert werden kann
  • Für die in den A/B-Test einbezogenen Einheiten gibt es entweder keine oder nur ordinale interaktive Effekte

Welches Kriterium die zweite Bedingung erfüllt, lässt sich nur von Fall zu Fall entscheiden. Im Zahlenbeispiel aus Folge 22 war dies der zweiseitige Permutationstest mit einer vorgegebenen Irrtumswahrscheinlichkeit von 0,05 (Signifikanzniveau beim zweiseitigen Permutationstest kleiner oder gleich 0,05 = systematischer Gruppenunterschied und damit Kausalität). Für dieses Kriterium spricht, dass es streng ist (verglichen mit einem einseitigen Test bei gleicher Irrtumswahrscheinlichkeit) und dass im Zahlenbeispiel aus Folge 22 alle Modellannahmen des Permutationstests erfüllt sind.

Ein A/B-Test ermöglicht im Allgemeinen keine Rückschlüsse auf die Effektstärke. Getestet wird daher nur, ob systematische Unterschiede zwischen den beiden Gruppen bestehen (zweiseitiger Text) oder ob die erhobenen Daten für die vermutete Wirkungsrichtung sprechen (einseitiger Test).

Die dritte Bedingung bedeutet inhaltlich, dass es keinen vernünftigen Grund zu der Annahme oder Vermutung geben darf, die in den A/B-Test einbezogenen Einheiten seien zu heterogen und müssten differenzierter betrachtet werden. Der Untersuchungsgegenstand des A/B-Tests sollte daher eng abgegrenzt sein (zum Beispiel nur Leads aus einem bestimmten Marktsegment).

Ist die dritte Bedingung verletzt, so kann der A/B-Test unbrauchbar sein (wegen disordinaler interaktiver Effekte oder dem Simpson-Paradox). Hierbei spielt es keine Rolle, ob Sie die Segmentierung, für die zum Beispiel disordinale interaktive Effekte auftreten kennen oder nicht. Die dritte Bedingung berührt die Frage, ob Sie den Ergebnissen eines A/B-Tests trauen können.

Ein A/B-Test zum Nachweis von Kausalität erfordert nicht nur methodische, sondern auch inhaltliche Vorüberlegungen, erstens eine sinnvolle Abgrenzung des Untersuchungsgegenstands (dritte Bedingung) und zweitens ein für die Fragestellung und die erhobenen Daten angemessenes Bewertungskriterium (zweite Bedingung).

Kategorie: 
Thesaurus: 

Einen Kommentar schreiben