Naar hoofdinhoud

2. De uitkomst van een A/B-test op een website is vaak een illusie vanwege bias

Er wordt denk ik teveel waarde gehecht aan kansberekeningen. Deze hebben over het algemeen weinig nut op een website. Er is namelijk zoveel potentiële bias dat de uitkomsten van een statistische formule in de regel te zwak zijn om te gebruiken. Mijns inziens wordt er momenteel veel toegeschreven aan toeval, terwijl bias eigenlijk de oorzaak is.

2.1 Voor kansberekeningen is een zo zuiver mogelijk experiment nodig

De statistische formules die in de regel voor experimenten gebruikt worden gaan er van uit dat er een zuiver experiment gedaan wordt. De formules werken namelijk vanuit het credo everything else stays equal. Een zuiver experiment is, zoals in hoofdstuk 1 aangeven, een zodanige experimentele setting ontwerpen dat een verandering in de ene variabele alleen kan worden toegeschreven aan een verandering in de andere variabele.

In de praktijk is er echter vaak helemaal geen sprake van een zuiver experiment. Hoe minder zuiver het experiment is, hoe minder goed de oorzaak-en-gevolg relatie is vast te stellen. Soms is er nog te spreken over bepaalde samenhang, maar het kan ook zijn dat het te onduidelijk wordt om uitspraken te doen. Bij een minder zuiver experiment kan het namelijk zo zijn dat de variabele die gemanipuleerd is niet voor het waargenomen effect zorgt, maar dat er een andere oorzaak is: bias (ook onzuiverheid genoemd). Dit is systematische vertekening (bevooroordeling, benadeling), en dus niet toe te schrijven aan toeval. Men weet nooit hoe groot de bias is. Men weet alleen dat het er mogelijk is.

Dit kan bijvoorbeeld komen door technische aspecten: bij A/B-testen op websites is dit onder andere dat bezoekers cookies verwijderen of dat de tool niet goed is ingesteld. Het kan ook zijn dat er variabelen in het spel zijn waar men geen rekening mee kon houden of waarvan men niet wist dat ze bestonden: bij A/B-testen op websites zijn die variabelen bijvoorbeeld de verkeersbron, de koopcyclus, de concurrentie of marketingcampagnes.

Garbage in, garbage out

De uitkomsten van statistische berekeningen kloppen bij een minder zuiver experiment dus niet, maar ze worden toch gebruikt. Zolang er in de kantlijn wordt ingegaan op de beperkingen van de uitkomsten is in de statistiek in principe alles te berekenen (een onderzoeksrapport heeft bijvoorbeeld vaak een gedeelte dat ingaat op beperkingen).

Er worden dus formules gebruikt die bedoeld zijn voor een zuiver experiment, in een minder zuiver experiment. Het gevolg hiervan is dat men zelf moet uitvinden wat de uitkomsten betekenen. Een formule heeft geen besef van de kwaliteit van de gegevens die erin gestopt worden: garbage in, garbage out. Formules weten niet of ze goed gebruikt worden, en waarschuwen niet als de uitkomsten niet kloppen. Het is dus belangrijk om de uitkomsten altijd in het juiste perspectief te blijven zien. Als er geen zuiver experiment gedaan wordt, kunnen er geen conclusies worden getrokken over een directe oorzaak-en-gevolg relatie.

2.2 Geregisseerde A/B-testen (vrij zuiver)

Informatie over A/B-testen pakt mijns inziens vaak alle vormen van A/B-testen bijeen waardoor uitleg, voorbeelden en discussies door elkaar lopen. Ik denk dat het goed is om onderscheid te maken tussen de verschillende vormen. Ik heb een onderverdeling gemaakt in geregisseerde A/B-testen en live A/B-testen.

Bij geregisseerde A/B-testen heeft men voordat men aan het experiment begint beschikking over bijna alle benodigde gegevens om de A/B-test te ontwerpen. Men heeft in verhouding veel controle. Het experiment is van te voren uit te zetten en daarna kan het vooropgezette plan gevolgd worden.

Wie A/B-testen van een website geregisseerd wil uitvoeren kan een selectie van potentiële kopers uitnodigen in een testlab. Hier kunnen de deelnemers worden geïsoleerd en alle relevante variabelen zoveel mogelijk worden gecontroleerd. Van te voren is er beschikking over een adressenbestand en zodoende kan er een representatieve steekproef genomen worden: als de website bijvoorbeeld meer gericht is op vrouwen kunnen er meer vrouwen worden meegenomen in het experiment. Vervolgens worden de deelnemers verdeeld in identieke groepen en krijgen de deelnemers de opdracht om bepaalde vaststaande taken uit te voeren op de website.

De A/B-testen die e-mailmarketeers uitvoeren vallen in deze categorie. E-mailmarketeers hebben in verhouding veel controle: ze hebben onder andere van te voren de beschikking over een adressenbestand. Medicijn- of kijkcijferonderzoek kan ook gekenmerkt worden als een geregisseerde A/B-test.

2.3 Live A/B-testen (verre van zuiver)

Bij een live A/B-test heeft men voordat men aan het experiment begint, vergeleken met geregisseerde A/B-testen, amper beschikking over gegevens. Men heeft in verhouding bijna geen controle. Het experiment is in veel mindere mate van te voren te plannen, en er kan zodoende in mindere mate een vooropgezet plan worden gevolgd.

Hierbij gaat het veel meer over observatie: meer dan het veranderen van een variabele (testvariant) kan niet. Het experiment is bijna niet van te voren te regisseren: het experiment begint op een bepaald tijdstip, midden in lopende processen, en dan is het maar afwachten wat er gebeurt, vervolgens stopt het experiment tijdens lopende processen. Deelnemers komen en gaan, wie het zijn is grotendeels onduidelijk, en ze doen allemaal andere dingen. De situatie is ver af van het credo everything else stays equal. De hoeveelheid bias kan enorm zijn, wat betekent dat het waargenomen effect veroorzaakt kan zijn door legio andere redenen dan de reden dat de variabele gemanipuleerd is.

Een A/B-test op een website valt in deze categorie: het is een zeer onzuiver experiment. Ik denk dat je kunt stellen dat, vergeleken met een werkelijk zuiver experiment, een A/B-test op een website choas is.

Er ontstaat volgens mij onduidelijkheid als de verschillende vormen van A/B-testen op één hoop gegooid worden. Het is niet handig om A/B-testen op websites uit te leggen aan de hand van een voorbeeld over medicijnonderzoek of van e-mailmarketeers, omdat dit een ander soort A/B-test is. A/B-testen op websites kan gezien worden als een vreemde eend in de bijt: het gros van de statistiek behandelt, voor zover ik daar zicht op heb, geregisseerde experimenten. A/B-testen op websites wordt vaak foutief benaderd alsof het een geregisseerd experiment is. Dit is op zich niet zo gek: dat is volgens mij de manier waarop bijna iedereen statistiek aangeleerd krijgt.

2.4 A/B-test tools geven een uitkomst die niet klopt

De tools voor A/B-testen op websites slikken dus alles wat ze gevoerd wordt. De tool vertelt niet of de uitkomsten sterk of zwak zijn. De tool werkt vanuit de aanname dat het een zuiver experiment is waarbij alle verschillen aan toeval kunnen worden toegeschreven. Het is blind voor vertekening die niet door toeval komt.

De tool gaat er bijvoorbeeld van uit dat alle omstandigheden en invloeden zijn geëlimineerd of gelijk gebleven. Het gaat er vanuit dat de groepen homogeen zijn: dat mensen robots zijn en dat mensen qua eigenschappen gelijk zijn, en dat ze precies hetzelfde reageren als ze dezelfde behandeling (testvariant) krijgen. De tool gaat er bijvoorbeeld ook van uit dat iedereen evenveel kans had om in het experiment te zitten.

De realiteit is echter, zoals eerder aangegeven, dat een A/B-test op een website ver af staat van een zuiver experiment. De hoeveelheid bias kan enorm zijn. Die uitkomst die een tool geeft kan ver van de werkelijkheid af zitten. Dat de tool een winnaar aangeeft kan gewoon nonsens zijn: het is een te zwakke uitkomst om bruikbaar te zijn. Iemand denkt een bepaalde uitkomst te zien, maar het is eigenlijk een illusie.

Een statement als “De tool geeft een (significante) winnaar aan dus dat is de betere variant” klopt niet. Het is denk ik gemakkelijk om jezelf te verliezen in allerlei ingewikkelde berekeningen. Men gaat hier mijns inziens vaak aan voorbij.

2.5 Voorbeeld van bias in een onzuiver experiment

Je hebt een A/B-test op een website gedaan om te kijken hoe de kleuren van een button van invloed zijn op het aantal verkochte producten. Variatie A bestond uit een blauwe button en variatie B bestond uit een rode button. De tool geeft aan dat de variatie met de rode button de winnaar is en dat deze heeft gezorgd voor 25% meer verkochte producten. Op basis hiervan zou je kunnen concluderen dat de rode button (factor) heeft gezorgd voor de stijging in verkochte producten (respons). Met andere woorden: een directe oorzaak-en-gevolg relatie. Echter, dit klopt alleen maar als het een zuiver experiment is.

Er zijn in praktijk veel meer variabelen in het spel. Het zou goed kunnen dat de groep die de blauwe button heeft gezien niet gelijk is aan de groep die de rode button heeft gezien. Het effect dat je waarneemt komt dan doordat de groepen van elkaar verschillen. De kleur van de button heeft misschien geen enkele rol gespeeld.

Als in de ene groep bijvoorbeeld 30% bezoek van Facebook zit en in de andere groep 40% bezoek van Facebook, dan is het waarschijnlijker dat dit verschil in bezoek heeft gezorgd voor de afwijking. Facebookbezoek was misschien sowieso al meer geneigd om tot actie over te gaan. De tool is hier echter blind voor omdat de formule die gebruikt wordt ervan uitgaat dat er geen enkel verschil zit in de groepen. Het resultaat zou in dit geval zwak zijn en niet bruikbaar, terwijl de tool aangeeft dat je een winnaar hebt.