Naar hoofdinhoud

3. Wie de totale populatie als steekproef ziet veronderstelt het bestaan van een multiversum

In het volgende gedeelte leg ik uit wat er gebeurt als men een A/B-test zonder steekproef verward met een A/B-test mét steekproeven. Dit doe ik omdat er mijns inziens conclusies aan de uitkomsten van A/B-testen worden verbonden die niet kloppen.

3.1 Significantie, power en lift

Wie een A/B-test met 100% van het websitebezoek ziet als steekproef denkt het volgende: omdat de beslissing is gebaseerd op een steekproef en niet op de totale populatie kan je soms tot een verkeerde conclusie komen. Zodoende heeft men het dan over bijvoorbeeld significantie, power en lift. Men heeft het dan ook over false positives: winnaars vinden die eigenlijk geen echte winnaars zijn. En over false negatives: jouw idee was wel een winnaar, je kon het alleen niet aantonen in je A/B-test. Echter, hier is alleen maar sprake van als je minder dan 100% van het websiteverkeer meeneemt in het experiment.

Een A/B-test met 100% van het websitebezoek is geen steekproef. De uitkomst is altijd precies de uitkomst van de A/B-test. Als versie B meer producten heeft verkocht dan versie A, dan staat onweerlegbaar vast dat versie B beter heeft gepresteerd. De producten zijn verkocht. De producten zijn opgestuurd. Het geld staat op de bank.

Het is dus raar om te zeggen dat er een kans bestaat dat versie B geen winnaar was, of dat je het niet hebt kunnen aantonen. Dan zou er een kans bestaan dat de producten die verkocht zijn eigenlijk niet verkocht zijn. De enige manier waarop dat kan is als er een multiversum zou bestaan. Je ziet misschien wel een winnaar, maar misschien zijn wij net dat universum waarin het eigenlijk op toeval berustte.

3.2 Kansberekening met munten

Vaak wordt bij kansberekening het bekende voorbeeld gebruikt van het werpen van munten. In dat voorbeeld worden bijvoorbeeld 6 zuivere munten geworpen in een zuiver experiment. Als de munten geland zijn liggen een x aantal munten met de zijde met kop bovenaan en een x aantal met de zijde met munt bovenaan. Het kan bijvoorbeeld zo zijn dat 5 van de 6 munten met kop bovenaan liggen. Als men het werpen van de 6 munten herhaalt krijgt men een andere uitkomst. Dan is bijvoorbeeld 1 van de 6 munten kop. De keer daarna bijvoorbeeld 3 van de 6 munten.

Als men het werpen van de 6 munten oneindig vaak zou herhalen zou men een overzicht (verdeling) kunnen maken van alle uitkomsten en hoe vaak een bepaalde uitkomst voorkwam. Bij het herhaaldelijke werpen van 6 munten kan de uitkomst die men bij elke herhaling krijgt alle kanten uitschieten: een uitkomst als 6 van de 6 munten kop (100% kop) of 0 van 6 munten kop (0% kop) is een reële mogelijkheid. De uitkomsten die men steeds krijgt variëren dan relatief veel van elkaar (grote spreiding). Als je in plaats van met 6 munten met 50 munten zou werpen verschilt de uitkomst elke keer dat je werpt minder van de andere uitkomsten: er is minder variatie (kleinere spreiding). Er zit iets in de munten dat niet gewoon willekeur is, dat sterker naar voren komt als men met meer munten werpt: een echt patroon.

Bij het herhaaldelijk werpen van 50 munten krijg je eerder uitkomsten als 43% of 56% kop, een uitkomst als 50 van de 50 munten kop (100% kop) is een stuk onwaarschijnlijker dan dit het geval was bij het herhaaldelijk werpen met 6 munten. Hoe groter het aantal munten is dat men herhaaldelijk werpt, hoe sterker elke uitkomst zich gaat centreren in de buurt van een bepaald gemiddelde in de verdeling. In dit voorbeeld bij het werpen van zuivere munten krijgt men uitkomsten rondom een gemiddelde van 50% kop en 50% munt. Als je het herhaaldelijk werpen verhoogt van 50 naar 2000 munten krijg je eerder uitkomsten zoals 49% of 52% kop. Een uitkomst als 43% kop, die men relatief vaak kon verwachten bij het werpen met 50 munten, is door deze verhoging van het aantal munten onwaarschijnlijker geworden.

De variatie wordt dus steeds kleiner naarmate men met een groter aantal munten werpt. Hoe groter het aantal munten is dat men herhaaldelijk werpt hoe meer de uitkomsten gaan centeren. Oftewel: hoe minder groot de uitkomst verandert elke keer als men werpt. Zodoende weet je bij 1 keer werpen welke variatie je kunt verwachten als je het werpen oneindig zou herhalen.

3.3 Betrouwbare resultaten

Dit gegeven wordt gebruikt in de statistiek om de resultaten van een steekproef (1 keer werpen) te vertalen in conclusies over de gehele populatie (oneindig vaak werpen). Men schat een parameter van een populatie op basis van een onderzochte steekproef (statistische inferentie). Met andere woorden: je berekent een bepaalde waarde voor een steekproef, waarna je iets probeert te zeggen over de overeenkomstige waarde voor de gehele populatie. Het idee is dat het gemiddelde dat je vindt in de steekproef gelijk is aan het gemiddelde van de totale populatie. Ze zijn niet gelijk vanwege de variatie die ontstaat doordat je een steekproef neemt en dus simpelweg niet iedereen vraagt.

In feite zeg je dit: ik neem een steekproef en ik ga er vanuit dat het gemiddelde van mijn steekproef hetzelfde is als het gemiddelde van de totale populatie. Ik weet dat ik niet iedereen vraag, dus ik erken dat ik als ik andere steekproeven neem dat de resultaten anders kunnen zijn. Mijn steekproef op zich geeft geen accuraat beeld, alleen een bepaald gebied (interval) van mogelijke uitkomsten geeft een accuraat beeld. Ik wil weten hoeveel die andere steekproeven dan maximaal kunnen verschillen zodat ik weet wat het interval is, en ik wil dat interval zo klein mogelijk maken zodat mijn steekproef de totale populatie benadert.

Dit interval wordt de foutmarge genoemd: de maximale te verwachten afwijking in vergelijking met een onderzoek naar de gehele populatie. Het is een maat voor de maximale toevallige afwijking (oftewel de onnauwkeurigheid) van de resultaten. Een foutmarge die 100% van de verdeling beslaat is echter niet praktisch. De verdeling is namelijk gebaseerd op oneindige herhaling, en men kan een experiment bijvoorbeeld niet oneindig lang laten draaien. Men bakent de verdeling zodoende af naar een interval (betrouwbaarheidsniveau) van bijvoorbeeld 80% of 95% van de verdeling.

De foutmarge tel je op en trek je af bij het resultaat van de steekproef. Het gebied dat je dan krijgt heet het betrouwbaarheidsinterval. Dit interval geeft de grenzen aan waarbinnen men de resultaten als betrouwbaar beschouwt. Het is een bovengrens aan de mate van afwijking die je kan verwachten. De moraal van het bovenstaande verhaal is: het resultaat op basis van een steekproef kan altijd iets afwijken van het resultaat dat je krijgt als je de gehele populatie zou betrekken in het onderzoek.

3.4 De kans op een exacte uitkomst is altijd 0

In de foutieve informatie die ik gevonden heb gaat men er van uit dat het specifieke resultaat dat men gevonden heeft in de A/B-test het exacte antwoord is. Men heeft bijvoorbeeld een stijging van 10% gevonden, en gaat er vanuit dat de variant dus 10% beter presteert.

De uitkomst die men krijgt is altijd een interval van mogelijke uitkomsten. Je kunt nooit een exacte waarde krijgen, omdat we hier te maken hebben met kans. Het feit dat er een kans is betekent dat je meer dan 1 uitkomst moet hebben. Als er 1 exacte uitkomst zou zijn dan zou je die in 100% van de gevallen krijgen, en dan zou er dus helemaal geen sprake zijn van kans. De kans op 1 specifieke waarde is 0.

Het lijkt dat men er vaak van uitgaat dat het resultaat dat men vindt constant blijft voor de rest van de periode dat de website online staat. Dat je vanaf dat moment altijd te maken hebt met de verbetering. Men heeft bijvoorbeeld een conversiestijging van 10% gevonden en berekent vervolgens met welk bedrag de winst gaat stijgen. Dit klopt niet. Na de test zal de conversiestijging nooit hetzelfde zijn in de test. Het zal fluctueren: het zal lager of hoger zijn, en praktisch nooit hetzelfde als het resultaat van de A/B-test.

3.5 Er is geen sprake meer van kans na het experiment

De conclusie wordt vaak verkeerd geformuleerd. Het klinkt dan mooi, terwijl het in feite niet zo is. Zo ben ik deze zinnen tegengekomen:

  • 95% significantie betekent dat je in de toekomst 95 van de 100 keer het resultaat krijgt van de A/B-test
  • 95 significantie betekent dat je voor 95% zeker bent dat de parameter binnen het interval valt
  • Significantie representeert de kans dat de waargenomen uitkomst zich daadwerkelijk voordoet
  • Significatie is de kans dat B beter is dan A
  • Significantie is de kans dat je een fout maakt als je voor B kiest en niet A
  • 95% significantie betekent dat het conversiepercentage van de website 95% van de tijd in het berekende interval (bijv. 5%-7%) valt

Nadat je de A/B-test gedaan hebt is kans verandert in een zekerheid. Stel het betrouwbaarheidsniveau is 95%. Dit betrouwbaarheidsniveau zit op elke mogelijke steekproef die je doet: op de daadwerkelijke steekproef die je gedaan hebt, en op alle steekproeven die je mogelijk zou kunnen doen. Elke keer dat je een steekproef doet krijg je een bepaald gemiddelde. In het geval van de munten bijvoorbeeld 41% kop of 34% kop. Als je nu ontelbaar vaak steekproeven trekt zal 5% van de tijd de uitkomst toevallig onevenredig veel hoge of lage waarden bevatten en zijn ze geen afspiegeling van de populatie. Het interval zal 95% van de tijd het populatiegemiddelde omvatten.

Zekerheid betekent niet dat als je de A/B-test langer zou laten draaien dat de resultaten niet gaan veranderen: dat de resultaten ‘echt’ zijn. Je bent niet voor 95% zeker van het interval. Je bent voor 95% zeker van het proces waarmee steekproeven zijn verzameld en betrouwbaarheidsintervallen zijn berekend.

3.6 De juiste conclusie formuleren

Het betekent niet dat als je nog een keer een steekproef zou doen dat je met 95% zekerheid kan zeggen dat het werkelijke gemiddelde in het berekende interval ligt. Je bent 95% zeker dat het werkelijke gemiddelde omvat wordt door wat voor interval je daarna ook maar krijgt. De volgende keer dat je de steekproef doet krijg je namelijk een andere interval.

Het is incorrect om te zeggen dat er een kans van 95% procent is dat het werkelijke percentage binnen het interval valt. Het werkelijke percentage staat vast, het is onbeweeglijk. Het is niet zo dat je een vast interval hebt en dat het werkelijke percentage varieert met elke steekproef, en 95% van de tijd binnen het vaste interval valt. Het omgekeerde is waar: het zijn de intervallen die variëren. Het is de kans dat het betrouwbaarheidsinterval het werkelijke percentage omvat in herhaalde steekproeven. Nadat je de A/B-test hebt afgerond is het simpel en zijn er maar 2 uitkomsten: of de steekproef heeft de uitkomst gevangen of niet. Dat is wat het is, meer niet.

Een A/B-test met 100% van het websitebezoek is gewoon simpelweg een observatie van wat er daadwerkelijk, onweerlegbaar, precies, exact, feitelijk plaatsvindt. Als je een totale populatie gaat zien als een steekproef en hier statistische berekeningen op gaat doen dan ga je meerdere waarheden berekenen. De statistische berekeningen gaan de totale populatie dan herhalen. De enige manier waarop een tijdsperiode op hetzelfde moment anders had kunnen verlopen is als er een multiversum zou bestaan. De uitkomst van de A/B-test zou dan slechts een uitkomst zijn in de reeks van alle mogelijke uitkomsten van alle parallele universums die er zijn. Alle uitkomsten van alle parallele universums tezamen geeft dan een soort universumsgemiddelde.

3.7 Voorbeeld

Als we munten herhaaldelijk werpen weten we dat we uiteindelijk een gemiddelde vinden van 50% kop. Bij een betrouwbaarheid van 95% zal, als we 100 keer werpen, ongeveer 95 van de 100 keer het interval van de steekproef het percentage 50% omvatten. De eerste keer dat je werpt krijg je bijvoorbeeld het interval 55-65. Dit omvat het percentage 50%. De volgende keer dat je werpt krijg je het interval 49-59. Dit omvat het percentage ook. Daarna krijg je het interval 53-63, wederom omvat dit het werkelijke percentage.

Daarna krijg je een interval 51-61. Dit keer omvat het interval het werkelijke percentage niet. Daarna herhaal je het weer en krijg je een interval dat het wel omvat. Als je dit blijft herhalen zul je zien dat, bij 95% betrouwbaarheid, je ongeveer 95 keer van de 100 een interval krijgt dat het werkelijke percentage omvat, en 5 keer van de 100 een interval krijgt dat het werkelijke percentage niet omvat.

Er is dus een kleine kans dat jij net die worp doet waarbij het interval het werkelijke percentage niet omvat. Op het moment dat je gaat werpen heb je 95% kans dat die worp die je doet het werkelijke percentage omvat, maar als je geen geluk hebt hoort jouw worp bij die 5% die het werkelijke percentage niet omvat. Nadat je geworpen hebt is kans veranderd in een zekerheid. Of jouw worp heeft het werkelijke percentage omvat of niet.

Als je dat vertaald naar een A/B-test dan is er een kans dat jij net die A/B-test doet die door toeval het werkelijke percentage niet omvat. De winnaar die je ziet is dan helemaal geen winnaar. De kans dat je een winnaar ziet die geen winnaar is, is echter wel klein, want je bent 95% zeker dat je een winnaar hebt.