Ghostwriting-Service Dr. Rainer Hastedt

Fachtexte, White Papers, statistische Auswertungen

Erfolgsmessung im Marketing - Folge 24: Konversionsvergleiche für mehr als zwei Gruppen (Einführung)

Nach meinen Ausführungen in Folge 23 kann ein A/B-Test unbrauchbar sein, weil die für den A/B-Test verwendeten Daten zu heterogen sind. Sie messen zum Beispiel eine positive Wirkung, obwohl die Wirkung für einen bedeutenden Teil der in den A/B-Test einbezogenen Einheiten negativ ist (disordinale Interaktion). Als Lösung hatte ich vorgeschlagen, den Untersuchungsgegenstand des A/B-Tests eng abzugrenzen (zum Beispiel nur Leads aus einem eng abgegrenzten Segment).

Trotzdem kann es sein, dass die Wirkung eines bestimmten Marketing-Instruments davon abhängt, ob oder wie Sie ein anderes Marketing-Instrument einsetzen. Ein A/B-Test wäre in diesem Fall unzureichend. Sie müssten beide Marketing-Instrumente in den Test einbeziehen, was auf mindestens vier Vergleichsgruppen hinauslaufen würde.

Ein solcher Test gehört zu den mehrfaktoriellen experimentellen Designs, mit denen ich mich in diesem Beitrag beschäftigen werde.

Das Hauptproblem bei solchen Designs ist die Frage, ob die gemessenen Unterschiede zwischen den Gruppen systematisch sind (Kausalität ja) oder zufällig (Kausalität nein). Ich hatte dies in Folge 22 für den Zwei-Gruppen-Fall (A/B-Test) besprochen. Hierbei zeigte sich, dass die aus Statistikkursen bekannten Standardmethoden für den Vergleich von durchschnittlichen Konversionsraten in der Regel ungeeignet sind. Dies gilt auch bei mehr als zwei Vergleichsgruppen.

Ich werde mein Thema anhand eines Anwendungsbeispiels behandeln, dem Test von vier Varianten einer Landing-Page.

Hierzu erläutere ich zunächst, dass Faktoren bei den hier interessierenden Fragestellungen Marketing-Instrumente sind. A/B-Tests gehören so gesehen zu den einfaktoriellen Designs. Ich erläutere dann mein Landing-Page-Beispiel, dem ein zweifaktorielles Design zugrunde liegt.

Anschließend überlege ich, welche Vermutungen meine Daten nahelegen. Ich berechne für alle infrage kommenden Einteilungen (zwei oder vier Gruppen) die durchschnittlichen Konversionsraten und prüfe ob es sinnvoll ist, an der feineren Einteilung (vier Gruppen) festzuhalten.

Zum Abschluss gebe ich einen Überblick über die für mein Zahlenbeispiel infrage kommenden Auswertungsmethoden. Sie können jede dieser Methoden als einen Versuch auffassen, die Kernfrage zu beantworten:

Sind die beobachteten Gruppenunterschiede systematisch oder zufällig (Kausalität ja oder nein)?

Ich werde die angesprochenen Methoden in den nächsten Folgen meiner Serie »Erfolgsmessung im Marketing« ausführlich erläutern.

Was ist ein Faktor?

Im Beispiel aus Folge 10 wurden die in der Kundendatenbank enthaltenen Käufer per Zufallsauswahl in eine Testgruppe und eine Kontrollgruppe eingeteilt. Alle Käufer aus der Testgruppe erhielten einen bestimmten Werbebrief, alle Käufer aus der Kontrollgruppe nicht.

Hier ist die Variable »Werbebrief« der Faktor. Die möglichen Werte (Levels) dieses Faktors sind »Werbebrief ja« und »Werbebrief nein«.

Im Beispiel aus Folge 21 wurden neue Leads per Zufallsauswahl in eine Testgruppe und eine Kontrollgruppe eingeteilt. Alle Leads aus der Testgruppe erhielten ein bestimmtes White Paper, alle Leads aus der Kontrollgruppe nicht.

Hier ist die Variable »White Paper« der Faktor. Die Faktorlevels dieses Faktors sind »White Paper ja« und »White Paper nein«.

Im Zusammenhang mit experimentellen Designs (zum Beispiel für A/B-Tests) setzt der Begriff des Faktors voraus, dass Sie in der Lage sind, die Faktorlevels festzulegen. Sie können zum Beispiel einem Käufer einen Werbebrief zusenden oder nicht. Der Faktor »Werbebrief« ist ein Marketing-Instrument. Dies gilt auch für den Faktor »White Paper«.

Bei einem A/B-Test bilden Sie per Zufallsauswahl eine Testgruppe, bei der Sie ein bestimmtes Marketing-Instrument einsetzen und eine Kontrollgruppe, bei der Sie auf das Marketing-Instrument verzichten. Bei einem solchen Design gibt es immer nur einen Faktor mit zwei Levels.

Mehrfaktorielle Designs

Stellen Sie sich vor, Sie haben eine Landing-Page, auf der Kunden ein Produkt bestellen können. Sie vermuten, dass der Verkaufserfolg davon abhängt, welche Headline und welche Produktbeschreibung Sie auf der Landing-Page verwenden.

Als Faktoren sehen Sie demnach die Headline und die Produktbeschreibung. Angenommen, Sie haben zwei Versionen der Headline (H1 und H2) sowie zwei Versionen der Produktbeschreibung (T1 und T2). Sie wollen wissen, welche Kombination aus Headline und Produktbeschreibung für Sie die beste ist.

Für den Test sehen Sie die Headline und die Produktbeschreibung als Marketing-Instrumente. Alle übrigen Elemente der Landing-Page (Layout, Bestellprozess, weitere Informationen) bleiben während des Tests unverändert.

Zu testen sind vier Varianten:

  • Landing-Page H1T1 mit H1 und T1
  • Landing-Page H2T1 mit H2 und T1
  • Landing-Page H1T2 mit H1 und T2
  • Landing-Page H2T2 mit H2 und T2

Beim Test bekommt jeder Besucher, der Ihre Landing-Page aufruft nur eine Variante zu sehen, entweder nur H1T1, nur H2T2, nur H1T2 oder nur H2T2. Welche Variante dies ist, bestimmen Sie per Zufallsauswahl. Alle Besucher müssen die gleiche Chance haben, eine bestimmte Variante zu erreichen.

Sie ermitteln für jeden Besucher, ob innerhalb einer angemessenen Zeit eine Konversion stattgefunden hat oder nicht (Bestellung ja = 1, Bestellung nein = 0).

Ich nehme an, dass Sie die im Abschnitt Zahlenbeispiel wiedergegebenen Daten erhalten. Die ersten fünf der insgesamt 140 Beobachtungswerte sehen wie folgt aus:

Kennzahl Headline Beschreibung Konversion
1 H1 T1 0
2 H2 T1 1
3 H1 T1 1
4 H2 T1 1
5 H1 T1 0

Die erste Spalte (»Kennzahl«) enthält die laufende Nummer des jeweiligen Besuchers, die zweite Spalte die dem Besucher gezeigte Headline, die dritte Spalte die dem Besucher gezeigte Produktbeschreibung und die vierte Spalte das jeweilige Ergebnis (Konversion oder nicht). Aus der Gruppeneinteilung ergibt sich, welche Variante der Landing-Page der jeweilige Besucher erreicht hat.

In meinem Zahlenbeispiel sind alle vier Gruppen gleich groß. Möglich wären auch unterschiedlich große Gruppen. Sie könnten zum Beispiel darauf hinwirken, dass die Gruppe H1T1 wesentlich größer wird als die anderen drei Gruppen. Jeder Besucher muss aber die gleiche Chance haben, in eine bestimmte Gruppe zu gelangen.

Sie können sich die Gruppeneinteilung als einen Prozess vorstellen, für den ein Computer die Excel-Funktion ZUFALLSZAHL() ausführt, die eine gleichmäßig verteilte Zufallszahl liefert, immer kleiner als eins und größer oder gleich null. Wenn ein Besucher die Landing-Page mit seinem Browser aufruft, wird eine solche Zufallszahl generiert und der Besucher auf die zugehörige Variante geleitet.

Denkbar wäre die folgende Zuordnung:

  • Zufallszahl ≥ 0 und < 0,4 erreicht Variante H1T1
  • Zufallszahl ≥ 0,4 und < 0,6 erreicht Variante H2T2
  • Zufallszahl ≥ 0,6 und < 0,8 erreicht Variante H1T2
  • Zufallszahl ≥ 0,8 und < 1 erreicht Variante H2T2

Bei dieser Einteilung wird Gruppe H1T1 ungefähr doppelt so groß wie Gruppe H2T1, H1T2 oder H2T2. Für annähernd gleich große Gruppen müssten alle vier Intervalle die gleiche Breite haben.

Für die Zufallsauswahl und die Zuweisung der entsprechenden Landing-Page-Variante gibt es zahlreiche Software-Lösungen. Kostenpflichtige Tools finden Sie zum Beispiel mit der Suchanfrage »multivariate tests software« oder »software multivariate testing« (jeweils ohne Anführungszeichen). Interessant sind auch Google Analytics (Content Experiments) sowie Module oder Add-ons für Content Management Systeme.

Ein erster Blick auf mein Zahlenbeispiel

Den Ausgangspunkt meiner Überlegungen bildet die im letzten Abschnitt gestellte Frage nach der besten Kombination von Headline und Produktbeschreibung. Ich muss hierzu vier Gruppen vergleichen.

Bevor ich dies mache, will ich klären, ob es eine eindeutig beste Headline gibt (H1 oder H2) oder eine eindeutig beste Produktbeschreibung (T1 oder T2). Hierzu betrachte ich meine Daten als Basis für zwei A/B-Tests.

Mit dem ersten A/B-Test vergleiche ich die beiden Headlines, indem ich den möglichen Einfluss der Produktbeschreibung ausblende. Ich berücksichtige hierzu nur die Spalten Headline und Konversion. Meine per Zufallsauswahl gebildeten Gruppen sind in diesem Fall H1 und H2.

Ich lese mit R meine in Form einer Excel-Tabelle vorliegenden Daten, berechne die durchschnittlichen Konversionsraten der beiden Gruppen und präsentiere das Ergebnis als Grafik:

library(readxl)
daten <- read_excel("0025.xlsx")
library(dplyr)
library(ggplot2)
MWH <- summarise(group_by(daten,Headline), MW=mean(Konversion))
svg("emim-24-1.svg", width=4.3, height=3.1, bg="transparent")
ggplot(MWH, aes(x=Headline, y=MW, fill=Headline)) +
geom_bar(stat="identity") +
geom_text(label=round(MWH$MW,2), vjust=-0.5, size=3) +
labs(title="Mittelwertvergleich H1 H2") +
scale_y_continuous(expand=c(0,0.1)) +
theme_bw() +
theme(legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Mittelwertvergleich H1 H2

Ich mache jetzt den Signifikanztest:

library(DAAG)
daten.H1 <- daten[daten$Headline=="H1",]
daten.H2 <- daten[daten$Headline=="H2",]
twotPermutation(daten.H1$Konversion, daten.H2$Konversion, nsim=20000)

Mein Permutationstest liefert p = 0, 169 (gerundet). Die deutlich höhere durchschnittliche Konversionsrate für Headline H1 ist demnach zufallsbedingt. Mein A/B-Test liefert somit keinen Grund zu der Annahme, Headline H1 sei besser als H2.

Einzelheiten zum Permutationstest finden Sie in Folge 21 und Folge 22. Der Datensatz daten.H1 umfasst alle Zeilen meiner Excel-Tabelle 0025.xlsx, in denen die Angabe für die Headline die Zeichenfolge »H1« enthält. Der Datensatz daten.H2 umfasst die übrigen Zeilen.

Mit dem zweiten A/B-Test vergleiche ich die beiden Produktbeschreibungen, indem ich den möglichen Einfluss der Headline ausblende. Ich berücksichtige hierzu nur die Spalten Beschreibung und Konversion. Ich habe dann die per Zufallsauswahl gebildeten Gruppen T1 und T2, deren Mittelwerte ich vergleichen kann.

MWT <- summarise(group_by(daten,Beschreibung), MW=mean(Konversion))
svg("emim-24-2.svg", width=4.3, height=3.1, bg="transparent")
ggplot(MWT, aes(x=Beschreibung, y=MW, fill=Beschreibung)) +
geom_bar(stat="identity") +
geom_text(label=round(MWT$MW,2), vjust=-0.5, size=3) +
labs(title="Mittelwertvergleich T1 T2") +
scale_y_continuous(expand=c(0,0.1)) +
theme_bw() +
theme(legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Mittelwertvergleich T1 T2

Ich mache wieder den Signifikanztest:

daten.T1 <- daten[daten$Beschreibung=="T1",]
daten.T2 <- daten[daten$Beschreibung=="T2",]
twotPermutation(daten.T1$Konversion, daten.T2$Konversion, nsim=20000)

Mein Permutationstest liefert p = 0,037 (gerundet). Der Unterschied zwischen den beiden durchschnittlichen Konversionsraten ist demnach nicht zufallsbedingt, sondern systematisch. Produktbeschreibung T1 verdient gemäß A/B-Test den Vorzug.

Ich will jetzt prüfen, ob dieser A/B-Test brauchbar ist. Ich verwende hierzu die in Folge 23 vorgestellte Technik, bei der ich die Steigung zweier Geraden vergleiche.

Zunächst ergänze ich meine Daten um eine Gruppenspalte für die vier Varianten der Landing Page, die aus den Werten der Spalten Headline und Beschreibung zusammengesetzt ist:

daten2 <- mutate(daten, Variante=paste(Headline, Beschreibung, sep=""))

Die ersten fünf Zeilen meiner neuen Datentabelle (ohne die Spalte Kennzahl):

Headline Beschreibung Konversion Variante
H1 T1 0 H1T1
H2 T1 1 H2T1
H1 T1 1 H1T1
H2 T1 1 H2T1
H1 T1 0 H1T1

Jetzt berechne ich die durchschnittlichen Konversionsraten der vier Gruppen und bringe die Ergebnisse in die für meine Grafik erforderliche Form:

MW4G <- summarise(group_by(daten2,Variante), MW=mean(Konversion))
MW4G <- data.frame(x=c(0,1),H1=MW4G$MW[2:1],H2=MW4G$MW[4:3])
library(reshape2)
MW4Gm <- melt(MW4G,id.vars = c("x"))
x variable value
0 H1 0.51
1 H1 0.77
0 H2 0.46
1 H2 0.57

x = 0 bedeutet, dass alle Besucher die Produktbeschreibung T2 sehen, was im Fall Headline = H1 eine durchschnittliche Konversionsrate in Höhe von 0,51 ergeben würde (H1T2).

x = 1 bedeutet, dass alle Besucher die Produktbeschreibung T1 sehen, was im Fall Headline = H1 eine durchschnittliche Konversionsrate in Höhe von 0,77 ergeben würde (H1T1).

Ich zeichne die Tabelle:

svg("emim-24-3.svg", width=4.3, height=3.1, bg="transparent")
ggplot(MW4Gm, aes(x=x,y=value,group=variable,colour=variable)) +
geom_line() +
geom_point() +
theme_bw() +
labs(title="Effektstärken im Vergleich", x="Anteil der Besucher, die T1 sehen", y="Konversionsrate") +
scale_colour_discrete(labels=c("Headline = H1", "Headline = H2")) +
theme(legend.position=c(0.23,0.83),
 legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Effektstärken im Vergleich

Beide Geraden haben eine positive Steigung. Für beide Headlines gilt daher, dass die Beziehung zwischen der durchschnittlichen Konversionsrate (Y-Achse) und dem Anteil der Besucher, die Produktbeschreibung T1 sehen (X-Achse) positiv ist. Mein A/B-Test zum Vergleich der beiden Produktbeschreibungen T1 und T2 ist so gesehen in Ordnung.

Trotzdem scheint Produktbeschreibung T1 mit Headline H1 wirkungsvoller zu sein als mit Headline H2. Die rote Gerade hat die größere Steigung.

Ein Vergleich der vier Gruppenmittelwerte verstärkt diesen Eindruck:

Mittelwertvergleich

MW4G <- summarise(group_by(daten2,Variante), MW=mean(Konversion))
svg("emim-24-4.svg", width=4.6, height=3.1, bg="transparent")
ggplot(MW4G, aes(x=Variante,y=MW, fill=Variante)) +
geom_bar(stat="identity") +
geom_text(label=round(MW4G$MW,2), vjust=-0.5, size=3) +
labs(title="Mittelwertvergleich") +
scale_y_continuous(expand=c(0,0.1)) +
theme_bw() +
theme(legend.title=element_blank(),
 legend.background=element_rect(fill="transparent"),
 plot.title=element_text(size=rel(1)),
 axis.text=element_text(size=rel(0.7)),
 axis.title=element_text(size=rel(0.9)),
 plot.background=element_rect(colour=NA,
 fill="transparent"))
dev.off()

Ausblick

Ich beginne in der nächsten Folge mit einem Vergleich der vier Gruppenmittelwerte, die in meinem Zahlenbeispiel durchschnittliche Konversionsraten sind.

Der erste Schritt ist ein F-Test, mit dem ich prüfe, ob alle vier Mittelwerte gleich sind. Weil meine Daten für die klassische Variante mit F-Verteilung ungeeignet sind, werde ich einen Permutations-F-Test durchführen.

Der zweite Schritt, ein direkter Vergleich der einzelnen Gruppenmittelwerte, ist meines Erachtens nur sinnvoll, wenn der F-Test ein signifikantes Ergebnis geliefert hat. Mein Zahlenbeispiel erfüllt diese Bedingung. Ich werde die Gruppenmittelwerte daher paarweise vergleichen, mit den in Folge 21 und Folge 22 besprochenen Permutationstests, jetzt aber mit Holm-Korrektur.

Die direkten Mittelwertvergleiche zeigen, dass die Daten des Zahlenbeispiels schwer auszuwerten sind. Alle zweiseitigen Tests liefern kein signifikantes Ergebnis, obwohl sich gemäß F-Test mindestens zwei Gruppenmittelwerte signifikant unterscheiden.

Mein nächster Versuch besteht in einem Chi-Quadrat-Test, mit dem ich prüfe, ob die Konversionswahrscheinlichkeiten für alle vier Gruppen gleich sind. Wegen meiner Daten werde ich auch diesen Test als Permutationstest durchführen. Dieser Test liefert für mein Zahlenbeispiel ein signifikantes Ergebnis.

Zum Abschluss dieses Beitrags werde ich die Konversionswahrscheinlichkeiten für alle vier Gruppen schätzen und prüfen, ob zwischen diesen Wahrscheinlichkeiten signifikante Unterschiede bestehen. Ein hierzu geeignetes Verfahren ist die Logistische Regression.

Eine Logistische Regression wird unter anderem zeigen, dass Produktbeschreibung T1 mit Headline H1 eindeutig besser ist als Produktbeschreibung T2 mit Headline H1 oder H2 (H1T1 signifikant besser als H1T2 und H2T2).

Die von mir beschriebenen Methoden sind auch anwendbar, wenn Sie mehr als zwei Faktoren berücksichtigen. Sie hätten in solchen Fällen mehr als vier Gruppen, die alle hinreichend groß sein müssten. Mein Zahlenbeispiel umfasst vier Gruppen mit jeweils 35 Besuchern und daher 140 Beobachtungswerte. Sechs Gruppen dieser Größe würden auf 210 Beobachtungswerte hinauslaufen.

Die von mir beschriebenen Methoden sind schließlich auch anwendbar, wenn einzelne oder alle Faktoren mehr als zwei Levels haben. Im Zahlenbeispiel müsste die Spalte »Konversion« nicht nur Einsen und Nullen enthalten (Konversion ja oder nein). Ein denkbarer Wertebereich wäre 200, 100 und 0 (Bestellung im Wert von 200 Euro, Bestellung im Wert von 100 Euro, Konversion nein). In diesem Fall wären die Gruppenmittelwerte durchschnittliche Bestellvolumina.

Zahlenbeispiel

Kennzahl Headline Beschreibung Konversion
1 H1 T1 0
2 H2 T1 1
3 H1 T1 1
4 H2 T1 1
5 H1 T1 0
6 H1 T1 1
7 H2 T1 0
8 H1 T1 1
9 H2 T1 1
10 H2 T1 0
11 H1 T1 1
12 H1 T1 1
13 H2 T1 0
14 H2 T1 1
15 H1 T1 1
16 H2 T1 1
17 H1 T1 1
18 H2 T1 1
19 H1 T1 1
20 H2 T1 1
21 H2 T1 0
22 H1 T1 1
23 H1 T1 1
24 H2 T1 1
25 H2 T1 0
26 H2 T1 1
27 H1 T1 1
28 H2 T1 1
29 H1 T1 0
30 H1 T1 1
31 H2 T1 0
32 H2 T1 1
33 H1 T1 1
34 H2 T1 0
35 H1 T1 1
36 H2 T1 0
37 H1 T1 1
38 H2 T1 1
39 H1 T1 0
40 H1 T1 1
41 H2 T1 0
42 H1 T1 1
43 H2 T1 1
44 H2 T1 0
45 H1 T1 1
46 H1 T1 1
47 H2 T1 0
48 H2 T1 1
49 H1 T1 0
50 H2 T1 1
51 H1 T1 1
52 H2 T1 1
53 H1 T1 0
54 H2 T1 1
55 H2 T1 0
56 H1 T1 1
57 H1 T1 1
58 H2 T1 1
59 H1 T1 0
60 H1 T1 1
61 H2 T1 0
62 H2 T1 0
63 H1 T1 1
64 H2 T1 1
65 H2 T1 0
66 H1 T1 1
67 H1 T1 0
68 H1 T1 1
69 H2 T1 1
70 H1 T1 1
71 H1 T2 0
72 H2 T2 0
73 H1 T2 0
74 H2 T2 1
75 H1 T2 0
76 H1 T2 1
77 H2 T2 0
78 H1 T2 1
79 H2 T2 1
80 H2 T2 0
81 H1 T2 0
82 H1 T2 0
83 H2 T2 0
84 H2 T2 1
85 H1 T2 1
86 H2 T2 0
87 H1 T2 0
88 H2 T2 1
89 H1 T2 0
90 H2 T2 1
91 H2 T2 0
92 H1 T2 1
93 H1 T2 1
94 H2 T2 1
95 H2 T2 1
96 H2 T2 0
97 H1 T2 0
98 H2 T2 1
99 H1 T2 0
100 H1 T2 1
101 H2 T2 0
102 H2 T2 0
103 H1 T2 1
104 H2 T2 0
105 H1 T2 1
106 H2 T2 0
107 H1 T2 1
108 H2 T2 1
109 H1 T2 0
110 H1 T2 1
111 H2 T2 0
112 H1 T2 1
113 H2 T2 1
114 H2 T2 0
115 H1 T2 0
116 H1 T2 0
117 H2 T2 0
118 H2 T2 1
119 H1 T2 0
120 H2 T2 1
121 H1 T2 1
122 H2 T2 1
123 H1 T2 0
124 H2 T2 1
125 H2 T2 0
126 H1 T2 1
127 H1 T2 1
128 H2 T2 0
129 H1 T2 0
130 H1 T2 1
131 H2 T2 0
132 H2 T2 0
133 H1 T2 1
134 H2 T2 1
135 H2 T2 0
136 H1 T2 1
137 H1 T2 0
138 H1 T2 0
139 H2 T2 1
140 H1 T2 1