Multifaktorielle (multivariate) Tests als Alternativen für A/B-Tests

Erfolgsmessung im Marketing - Folge 24: Konversionsvergleiche für mehr als zwei Gruppen (Einführung)

Nach meinen Ausführungen in Folge 23 kann ein A/B-Test unbrauchbar sein, weil die für den A/B-Test verwendeten Daten zu heterogen sind. Sie messen zum Beispiel eine positive Wirkung, obwohl die Wirkung für einen bedeutenden Teil der in den A/B-Test einbezogenen Einheiten negativ ist (disordinale Interaktion). Als Lösung hatte ich vorgeschlagen, den Untersuchungsgegenstand des A/B-Tests eng abzugrenzen (zum Beispiel nur Leads aus einem eng abgegrenzten Segment).

Trotzdem kann es sein, dass die Wirkung eines bestimmten Marketing-Instruments davon abhängt, ob oder wie Sie ein anderes Marketing-Instrument einsetzen. Ein A/B-Test wäre in diesem Fall unzureichend. Sie müssten beide Marketing-Instrumente in den Test einbeziehen, was auf mindestens vier Vergleichsgruppen hinauslaufen würde.

Ein solcher Test gehört zu den mehrfaktoriellen experimentellen Designs, mit denen ich mich in diesem Beitrag beschäftigen werde.

Das Hauptproblem bei solchen Designs ist die Frage, ob die gemessenen Unterschiede zwischen den Gruppen systematisch sind (Kausalität ja) oder zufällig (Kausalität nein). Ich hatte dies in Folge 22 für den Zwei-Gruppen-Fall (A/B-Test) besprochen. Hierbei zeigte sich, dass die aus Statistikkursen bekannten Standardmethoden für den Vergleich von durchschnittlichen Konversionsraten in der Regel ungeeignet sind. Dies gilt auch bei mehr als zwei Vergleichsgruppen.

Ich werde mein Thema anhand eines Anwendungsbeispiels behandeln, dem Test von vier Varianten einer Landing-Page.

Hierzu erläutere ich zunächst, dass Faktoren bei den hier interessierenden Fragestellungen Marketing-Instrumente sind. A/B-Tests gehören so gesehen zu den einfaktoriellen Designs. Ich erläutere dann mein Landing-Page-Beispiel, dem ein zweifaktorielles Design zugrunde liegt.

Anschließend überlege ich, welche Vermutungen meine Daten nahelegen. Ich berechne für alle infrage kommenden Einteilungen (zwei oder vier Gruppen) die durchschnittlichen Konversionsraten und prüfe ob es sinnvoll ist, an der feineren Einteilung (vier Gruppen) festzuhalten.

Zum Abschluss gebe ich einen Überblick über die für mein Zahlenbeispiel infrage kommenden Auswertungsmethoden. Sie können jede dieser Methoden als einen Versuch auffassen, die Kernfrage zu beantworten:

Sind die beobachteten Gruppenunterschiede systematisch oder zufällig (Kausalität ja oder nein)?

Ich werde die angesprochenen Methoden in den nächsten Folgen meiner Serie »Erfolgsmessung im Marketing« ausführlich erläutern.

Was ist ein Faktor?

Im Beispiel aus Folge 10 wurden die in der Kundendatenbank enthaltenen Käufer per Zufallsauswahl in eine Testgruppe und eine Kontrollgruppe eingeteilt. Alle Käufer aus der Testgruppe erhielten einen bestimmten Werbebrief, alle Käufer aus der Kontrollgruppe nicht.

Hier ist die Variable »Werbebrief« der Faktor. Die möglichen Werte (Levels) dieses Faktors sind »Werbebrief ja« und »Werbebrief nein«.

Im Beispiel aus Folge 21 wurden neue Leads per Zufallsauswahl in eine Testgruppe und eine Kontrollgruppe eingeteilt. Alle Leads aus der Testgruppe erhielten ein bestimmtes White Paper, alle Leads aus der Kontrollgruppe nicht.

Hier ist die Variable »White Paper« der Faktor. Die Faktorlevels dieses Faktors sind »White Paper ja« und »White Paper nein«.

Im Zusammenhang mit experimentellen Designs (zum Beispiel für A/B-Tests) setzt der Begriff des Faktors voraus, dass Sie in der Lage sind, die Faktorlevels festzulegen. Sie können zum Beispiel einem Käufer einen Werbebrief zusenden oder nicht. Der Faktor »Werbebrief« ist ein Marketing-Instrument. Dies gilt auch für den Faktor »White Paper«.

Bei einem A/B-Test bilden Sie per Zufallsauswahl eine Testgruppe, bei der Sie ein bestimmtes Marketing-Instrument einsetzen und eine Kontrollgruppe, bei der Sie auf das Marketing-Instrument verzichten. Bei einem solchen Design gibt es immer nur einen Faktor mit zwei Levels.

Mehrfaktorielle Designs

Stellen Sie sich vor, Sie haben eine Landing-Page, auf der Kunden ein Produkt bestellen können. Sie vermuten, dass der Verkaufserfolg davon abhängt, welche Headline und welche Produktbeschreibung Sie auf der Landing-Page verwenden.

Als Faktoren sehen Sie demnach die Headline und die Produktbeschreibung. Angenommen, Sie haben zwei Versionen der Headline (H1 und H2) sowie zwei Versionen der Produktbeschreibung (T1 und T2). Sie wollen wissen, welche Kombination aus Headline und Produktbeschreibung für Sie die beste ist.

Für den Test sehen Sie die Headline und die Produktbeschreibung als Marketing-Instrumente. Alle übrigen Elemente der Landing-Page (Layout, Bestellprozess, weitere Informationen) bleiben während des Tests unverändert.

Zu testen sind vier Varianten:

Landing-Page H1T1 mit H1 und T1
Landing-Page H2T1 mit H2 und T1
Landing-Page H1T2 mit H1 und T2
Landing-Page H2T2 mit H2 und T2

Beim Test bekommt jeder Besucher, der Ihre Landing-Page aufruft nur eine Variante zu sehen, entweder nur H1T1, nur H2T2, nur H1T2 oder nur H2T2. Welche Variante dies ist, bestimmen Sie per Zufallsauswahl. Alle Besucher müssen die gleiche Chance haben, eine bestimmte Variante zu erreichen.

Sie ermitteln für jeden Besucher, ob innerhalb einer angemessenen Zeit eine Konversion stattgefunden hat oder nicht (Bestellung ja = 1, Bestellung nein = 0).

Ich nehme an, dass Sie die im Abschnitt Zahlenbeispiel wiedergegebenen Daten erhalten. Die ersten fünf der insgesamt 140 Beobachtungswerte sehen wie folgt aus:

Kennzahl	Headline	Beschreibung	Konversion
1	H1	T1	0
2	H2	T1	1
3	H1	T1	1
4	H2	T1	1
5	H1	T1	0

Die erste Spalte (»Kennzahl«) enthält die laufende Nummer des jeweiligen Besuchers, die zweite Spalte die dem Besucher gezeigte Headline, die dritte Spalte die dem Besucher gezeigte Produktbeschreibung und die vierte Spalte das jeweilige Ergebnis (Konversion oder nicht). Aus der Gruppeneinteilung ergibt sich, welche Variante der Landing-Page der jeweilige Besucher erreicht hat.

In meinem Zahlenbeispiel sind alle vier Gruppen gleich groß. Möglich wären auch unterschiedlich große Gruppen. Sie könnten zum Beispiel darauf hinwirken, dass die Gruppe H1T1 wesentlich größer wird als die anderen drei Gruppen. Jeder Besucher muss aber die gleiche Chance haben, in eine bestimmte Gruppe zu gelangen.

Sie können sich die Gruppeneinteilung als einen Prozess vorstellen, für den ein Computer die Excel-Funktion ZUFALLSZAHL() ausführt, die eine gleichmäßig verteilte Zufallszahl liefert, immer kleiner als eins und größer oder gleich null. Wenn ein Besucher die Landing-Page mit seinem Browser aufruft, wird eine solche Zufallszahl generiert und der Besucher auf die zugehörige Variante geleitet.

Denkbar wäre die folgende Zuordnung:

Zufallszahl ≥ 0 und < 0,4 erreicht Variante H1T1
Zufallszahl ≥ 0,4 und < 0,6 erreicht Variante H2T2
Zufallszahl ≥ 0,6 und < 0,8 erreicht Variante H1T2
Zufallszahl ≥ 0,8 und < 1 erreicht Variante H2T2

Bei dieser Einteilung wird Gruppe H1T1 ungefähr doppelt so groß wie Gruppe H2T1, H1T2 oder H2T2. Für annähernd gleich große Gruppen müssten alle vier Intervalle die gleiche Breite haben.

Für die Zufallsauswahl und die Zuweisung der entsprechenden Landing-Page-Variante gibt es zahlreiche Software-Lösungen. Kostenpflichtige Tools finden Sie zum Beispiel mit der Suchanfrage »multivariate tests software« oder »software multivariate testing« (jeweils ohne Anführungszeichen). Interessant sind auch Google Analytics (Content Experiments) sowie Module oder Add-ons für Content Management Systeme.

Ein erster Blick auf mein Zahlenbeispiel

Den Ausgangspunkt meiner Überlegungen bildet die im letzten Abschnitt gestellte Frage nach der besten Kombination von Headline und Produktbeschreibung. Ich muss hierzu vier Gruppen vergleichen.

Bevor ich dies mache, will ich klären, ob es eine eindeutig beste Headline gibt (H1 oder H2) oder eine eindeutig beste Produktbeschreibung (T1 oder T2). Hierzu betrachte ich meine Daten als Basis für zwei A/B-Tests.

Mit dem ersten A/B-Test vergleiche ich die beiden Headlines, indem ich den möglichen Einfluss der Produktbeschreibung ausblende. Ich berücksichtige hierzu nur die Spalten Headline und Konversion. Meine per Zufallsauswahl gebildeten Gruppen sind in diesem Fall H1 und H2.

Ich lese mit R meine in Form einer Excel-Tabelle vorliegenden Daten, berechne die durchschnittlichen Konversionsraten der beiden Gruppen und präsentiere das Ergebnis als Grafik:

library(readxl)
daten <- read_excel("0025.xlsx")
library(dplyr)
library(ggplot2)
MWH <- summarise(group_by(daten,Headline), MW=mean(Konversion))
svg("emim-24-1.svg", width=4.3, height=3.1, bg="transparent")
ggplot(MWH, aes(x=Headline, y=MW, fill=Headline)) +
geom_bar(stat="identity") +
geom_text(label=round(MWH$MW,2), vjust=-0.5, size=3) +
labs(title="Mittelwertvergleich H1 H2") +
scale_y_continuous(expand=c(0,0.1)) +
theme_bw() +
theme(legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Mittelwertvergleich H1 H2

Ich mache jetzt den Signifikanztest:

library(DAAG)
daten.H1 <- daten[daten$Headline=="H1",]
daten.H2 <- daten[daten$Headline=="H2",]
twotPermutation(daten.H1$Konversion, daten.H2$Konversion, nsim=20000)

Mein Permutationstest liefert p = 0, 169 (gerundet). Die deutlich höhere durchschnittliche Konversionsrate für Headline H1 ist demnach zufallsbedingt. Mein A/B-Test liefert somit keinen Grund zu der Annahme, Headline H1 sei besser als H2.

Einzelheiten zum Permutationstest finden Sie in Folge 21 und Folge 22. Der Datensatz daten.H1 umfasst alle Zeilen meiner Excel-Tabelle 0025.xlsx, in denen die Angabe für die Headline die Zeichenfolge »H1« enthält. Der Datensatz daten.H2 umfasst die übrigen Zeilen.

Mit dem zweiten A/B-Test vergleiche ich die beiden Produktbeschreibungen, indem ich den möglichen Einfluss der Headline ausblende. Ich berücksichtige hierzu nur die Spalten Beschreibung und Konversion. Ich habe dann die per Zufallsauswahl gebildeten Gruppen T1 und T2, deren Mittelwerte ich vergleichen kann.

MWT <- summarise(group_by(daten,Beschreibung), MW=mean(Konversion))
svg("emim-24-2.svg", width=4.3, height=3.1, bg="transparent")
ggplot(MWT, aes(x=Beschreibung, y=MW, fill=Beschreibung)) +
geom_bar(stat="identity") +
geom_text(label=round(MWT$MW,2), vjust=-0.5, size=3) +
labs(title="Mittelwertvergleich T1 T2") +
scale_y_continuous(expand=c(0,0.1)) +
theme_bw() +
theme(legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Mittelwertvergleich T1 T2

Ich mache wieder den Signifikanztest:

daten.T1 <- daten[daten$Beschreibung=="T1",]
daten.T2 <- daten[daten$Beschreibung=="T2",]
twotPermutation(daten.T1$Konversion, daten.T2$Konversion, nsim=20000)

Mein Permutationstest liefert p = 0,037 (gerundet). Der Unterschied zwischen den beiden durchschnittlichen Konversionsraten ist demnach nicht zufallsbedingt, sondern systematisch. Produktbeschreibung T1 verdient gemäß A/B-Test den Vorzug.

Ich will jetzt prüfen, ob dieser A/B-Test brauchbar ist. Ich verwende hierzu die in Folge 23 vorgestellte Technik, bei der ich die Steigung zweier Geraden vergleiche.

Zunächst ergänze ich meine Daten um eine Gruppenspalte für die vier Varianten der Landing Page, die aus den Werten der Spalten Headline und Beschreibung zusammengesetzt ist:

daten2 <- mutate(daten, Variante=paste(Headline, Beschreibung, sep=""))

Die ersten fünf Zeilen meiner neuen Datentabelle (ohne die Spalte Kennzahl):

Headline	Beschreibung	Konversion	Variante
H1	T1	0	H1T1
H2	T1	1	H2T1
H1	T1	1	H1T1
H2	T1	1	H2T1
H1	T1	0	H1T1

Jetzt berechne ich die durchschnittlichen Konversionsraten der vier Gruppen und bringe die Ergebnisse in die für meine Grafik erforderliche Form:

MW4G <- summarise(group_by(daten2,Variante), MW=mean(Konversion))
MW4G <- data.frame(x=c(0,1),H1=MW4G$MW[2:1],H2=MW4G$MW[4:3])
library(reshape2)
MW4Gm <- melt(MW4G,id.vars = c("x"))

x	variable	value
0	H1	0.51
1	H1	0.77
0	H2	0.46
1	H2	0.57

x = 0 bedeutet, dass alle Besucher die Produktbeschreibung T2 sehen, was im Fall Headline = H1 eine durchschnittliche Konversionsrate in Höhe von 0,51 ergeben würde (H1T2).

x = 1 bedeutet, dass alle Besucher die Produktbeschreibung T1 sehen, was im Fall Headline = H1 eine durchschnittliche Konversionsrate in Höhe von 0,77 ergeben würde (H1T1).

Ich zeichne die Tabelle:

svg("emim-24-3.svg", width=4.3, height=3.1, bg="transparent")
ggplot(MW4Gm, aes(x=x,y=value,group=variable,colour=variable)) +
geom_line() +
geom_point() +
theme_bw() +
labs(title="Effektstärken im Vergleich", x="Anteil der Besucher, die T1 sehen", y="Konversionsrate") +
scale_colour_discrete(labels=c("Headline = H1", "Headline = H2")) +
theme(legend.position=c(0.23,0.83),
 legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Effektstärken im Vergleich

Beide Geraden haben eine positive Steigung. Für beide Headlines gilt daher, dass die Beziehung zwischen der durchschnittlichen Konversionsrate (Y-Achse) und dem Anteil der Besucher, die Produktbeschreibung T1 sehen (X-Achse) positiv ist. Mein A/B-Test zum Vergleich der beiden Produktbeschreibungen T1 und T2 ist so gesehen in Ordnung.

Trotzdem scheint Produktbeschreibung T1 mit Headline H1 wirkungsvoller zu sein als mit Headline H2. Die rote Gerade hat die größere Steigung.

Ein Vergleich der vier Gruppenmittelwerte verstärkt diesen Eindruck:

Mittelwertvergleich

MW4G <- summarise(group_by(daten2,Variante), MW=mean(Konversion))
svg("emim-24-4.svg", width=4.6, height=3.1, bg="transparent")
ggplot(MW4G, aes(x=Variante,y=MW, fill=Variante)) +
geom_bar(stat="identity") +
geom_text(label=round(MW4G$MW,2), vjust=-0.5, size=3) +
labs(title="Mittelwertvergleich") +
scale_y_continuous(expand=c(0,0.1)) +
theme_bw() +
theme(legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Ausblick

Ich beginne in der nächsten Folge mit einem Vergleich der vier Gruppenmittelwerte, die in meinem Zahlenbeispiel durchschnittliche Konversionsraten sind.

Der erste Schritt ist ein F-Test, mit dem ich prüfe, ob alle vier Mittelwerte gleich sind. Weil meine Daten für die klassische Variante mit F-Verteilung ungeeignet sind, werde ich einen Permutations-F-Test durchführen.

Der zweite Schritt, ein direkter Vergleich der einzelnen Gruppenmittelwerte, ist meines Erachtens nur sinnvoll, wenn der F-Test ein signifikantes Ergebnis geliefert hat. Mein Zahlenbeispiel erfüllt diese Bedingung. Ich werde die Gruppenmittelwerte daher paarweise vergleichen, mit den in Folge 21 und Folge 22 besprochenen Permutationstests, jetzt aber mit Holm-Korrektur.

Die direkten Mittelwertvergleiche zeigen, dass die Daten des Zahlenbeispiels schwer auszuwerten sind. Alle zweiseitigen Tests liefern kein signifikantes Ergebnis, obwohl sich gemäß F-Test mindestens zwei Gruppenmittelwerte signifikant unterscheiden.

Mein nächster Versuch besteht in einem Chi-Quadrat-Test, mit dem ich prüfe, ob die Konversionswahrscheinlichkeiten für alle vier Gruppen gleich sind. Wegen meiner Daten werde ich auch diesen Test als Permutationstest durchführen. Dieser Test liefert für mein Zahlenbeispiel ein signifikantes Ergebnis.

Zum Abschluss dieses Beitrags werde ich die Konversionswahrscheinlichkeiten für alle vier Gruppen schätzen und prüfen, ob zwischen diesen Wahrscheinlichkeiten signifikante Unterschiede bestehen. Ein hierzu geeignetes Verfahren ist die Logistische Regression.

Eine Logistische Regression wird unter anderem zeigen, dass Produktbeschreibung T1 mit Headline H1 eindeutig besser ist als Produktbeschreibung T2 mit Headline H1 oder H2 (H1T1 signifikant besser als H1T2 und H2T2).

Die von mir beschriebenen Methoden sind auch anwendbar, wenn Sie mehr als zwei Faktoren berücksichtigen. Sie hätten in solchen Fällen mehr als vier Gruppen, die alle hinreichend groß sein müssten. Mein Zahlenbeispiel umfasst vier Gruppen mit jeweils 35 Besuchern und daher 140 Beobachtungswerte. Sechs Gruppen dieser Größe würden auf 210 Beobachtungswerte hinauslaufen.

Die von mir beschriebenen Methoden sind schließlich auch anwendbar, wenn einzelne oder alle Faktoren mehr als zwei Levels haben. Im Zahlenbeispiel müsste die Spalte »Konversion« nicht nur Einsen und Nullen enthalten (Konversion ja oder nein). Ein denkbarer Wertebereich wäre 200, 100 und 0 (Bestellung im Wert von 200 Euro, Bestellung im Wert von 100 Euro, Konversion nein). In diesem Fall wären die Gruppenmittelwerte durchschnittliche Bestellvolumina.

Zahlenbeispiel

Kennzahl	Headline	Beschreibung	Konversion
1	H1	T1	0
2	H2	T1	1
3	H1	T1	1
4	H2	T1	1
5	H1	T1	0
6	H1	T1	1
7	H2	T1	0
8	H1	T1	1
9	H2	T1	1
10	H2	T1	0
11	H1	T1	1
12	H1	T1	1
13	H2	T1	0
14	H2	T1	1
15	H1	T1	1
16	H2	T1	1
17	H1	T1	1
18	H2	T1	1
19	H1	T1	1
20	H2	T1	1
21	H2	T1	0
22	H1	T1	1
23	H1	T1	1
24	H2	T1	1
25	H2	T1	0
26	H2	T1	1
27	H1	T1	1
28	H2	T1	1
29	H1	T1	0
30	H1	T1	1
31	H2	T1	0
32	H2	T1	1
33	H1	T1	1
34	H2	T1	0
35	H1	T1	1
36	H2	T1	0
37	H1	T1	1
38	H2	T1	1
39	H1	T1	0
40	H1	T1	1
41	H2	T1	0
42	H1	T1	1
43	H2	T1	1
44	H2	T1	0
45	H1	T1	1
46	H1	T1	1
47	H2	T1	0
48	H2	T1	1
49	H1	T1	0
50	H2	T1	1
51	H1	T1	1
52	H2	T1	1
53	H1	T1	0
54	H2	T1	1
55	H2	T1	0
56	H1	T1	1
57	H1	T1	1
58	H2	T1	1
59	H1	T1	0
60	H1	T1	1
61	H2	T1	0
62	H2	T1	0
63	H1	T1	1
64	H2	T1	1
65	H2	T1	0
66	H1	T1	1
67	H1	T1	0
68	H1	T1	1
69	H2	T1	1
70	H1	T1	1
71	H1	T2	0
72	H2	T2	0
73	H1	T2	0
74	H2	T2	1
75	H1	T2	0
76	H1	T2	1
77	H2	T2	0
78	H1	T2	1
79	H2	T2	1
80	H2	T2	0
81	H1	T2	0
82	H1	T2	0
83	H2	T2	0
84	H2	T2	1
85	H1	T2	1
86	H2	T2	0
87	H1	T2	0
88	H2	T2	1
89	H1	T2	0
90	H2	T2	1
91	H2	T2	0
92	H1	T2	1
93	H1	T2	1
94	H2	T2	1
95	H2	T2	1
96	H2	T2	0
97	H1	T2	0
98	H2	T2	1
99	H1	T2	0
100	H1	T2	1
101	H2	T2	0
102	H2	T2	0
103	H1	T2	1
104	H2	T2	0
105	H1	T2	1
106	H2	T2	0
107	H1	T2	1
108	H2	T2	1
109	H1	T2	0
110	H1	T2	1
111	H2	T2	0
112	H1	T2	1
113	H2	T2	1
114	H2	T2	0
115	H1	T2	0
116	H1	T2	0
117	H2	T2	0
118	H2	T2	1
119	H1	T2	0
120	H2	T2	1
121	H1	T2	1
122	H2	T2	1
123	H1	T2	0
124	H2	T2	1
125	H2	T2	0
126	H1	T2	1
127	H1	T2	1
128	H2	T2	0
129	H1	T2	0
130	H1	T2	1
131	H2	T2	0
132	H2	T2	0
133	H1	T2	1
134	H2	T2	1
135	H2	T2	0
136	H1	T2	1
137	H1	T2	0
138	H1	T2	0
139	H2	T2	1
140	H1	T2	1

Ghostwriting-Service Dr. Rainer Hastedt