Wat is het resultaat als dezelfde A/B-test wordt herhaald en wanneer loont het om een oude test te herhalen? De kernvraag die je jezelf hierbij kunt stellen luidt: Waarom verwacht je ditmaal andere resultaten dan de vorige keer dat de test werd uitgevoerd?

Wanneer kun je oude tests herhalen?

Door de vraag in de inleiding als uitgangspunt te nemen, voorkom je dat er tijd en energie wordt besteed aan het opnieuw uitvoeren van oude tests die naar alle waarschijnlijkheid dezelfde resultaten opleveren. Dit staat los van het feit dat het in een continu testproces verstandig kan zijn oude tests opnieuw te bekijken en de aannames te blijven valideren.

In een aantal gevallen loont het opnieuw uitvoeren van een experiment de moeite, terwijl dit in andere gevallen niet zo is. Hieronder volgen daarom enkele voorbeelden van veranderende omstandigheden. Tevens wordt geadviseerd of op basis van deze veranderde omstandigheden het experiment wel of niet opnieuw uitgevoerd zou moeten worden.

Wanneer een test wel opnieuw uitvoeren?

  • Vorige experiment ging mis
  • Internet is veranderd
  • Organisatie is veranderd
  • Website is veranderd
  • Resultaten niet meer beschikbaar

Vorige experiment ging mis

11586303026_7a9affabc7_nDit zal vermoedelijk de meest voorkomende reden zijn om een experiment opnieuw uit te voeren. Er kan hierbij bijvoorbeeld gedacht worden aan promoties die tijdens het experiment liepen en daarmee de resultaten hebben beïnvloed. Ook het stopzetten van varianten, het verkeerd ingericht hebben van doelen, onjuiste URL targeting of een abnormale mix van verkeersbronnen kunnen zorgen voor vertekende resultaten. (Photo credit: Broken test tubes)

Internet is veranderd

De variatie die werd getest had geen invloed op het aantal conversies of verlaagde deze zelfs. Het valt echter op dat steeds meer toonaangevende websites soortgelijke wijzigingen toch bij hun website doorvoeren. Mogelijk heb je simpelweg te ver voorgelopen op de rest van het internet of moeten je gebruikers wennen aan de aanpassing. Dit wordt ook wel user change aversion genoemd. Nu de menigte door veelvuldige blootstelling intussen gewend is aan het nieuwe systeem kan dit mogelijk voor jou nu ook positieve resultaten hebben. Om dergelijke situaties in het vervolg te voorkomen dient er in de toekomst beter gekeken te worden naar de wensen, mogelijkheden en kennis van de doelgroep.

Organisatie is veranderd

Organisaties ontwikkelen zich voortdurend. Dit kan bijvoorbeeld betekenen dat er sinds de vorige test een volledig ander productaanbod is of dat het bedrijf zijn producten in een andere prijscategorie op de markt heeft gezet. Ook kan het zo zijn dat de organisatie naar buiten komt met andere Unique Selling Points, of zelfs dat het zich richt op een andere markt of doelgroep. Bij al deze factoren dient echter overwogen te worden of er sprake is van een significante interactie met wat er getest werd. Factoren als lagere of hogere prijzen zijn immers op alle varianten in een experiment van toepassing. Echter, bij een experiment die ‘De laagste prijs’ al dan niet als belangrijke USP over de gehele website toonde, dan kan dit een invloed gehad hebben op de uitkomst van het experiment.

Website is veranderd

3rd-ugliest-websiteDe meeste organisaties veranderen eens in de paar jaar hun website. Zij laten deze dan in één keer radicaal aanpassen en doen dit al dan niet op basis van nieuwe standaarden of ontwikkelingen op het gebied van webdesign. Het gevolg hiervan is dat een experiment dat eerder bepaalde resultaten opleverde nu ineens totaal verschillende resultaten op kan leveren. Denk hier bijvoorbeeld aan het klassieke experiment waarbij de kleur van de Call To Action knop wordt aangepast. Deze CTA kleur kan in het nieuwe design mogelijk wel (of juist niet) contrasteren met de rest van het design. Een goed advies met betrekking tot radicale redesigns wordt gegeven in het artikel ‘An Introduction to Evolutionary Site Redesign’.

Resultaten niet meer beschikbaar

Mogelijk is er overgestapt van A/B testing tool of van partij die de testen uitvoert. Hoe dan ook zijn de oorspronkelijke resultaten van het experiment niet meer beschikbaar. Wanneer er bij het verwerken van het experiment uit is gegaan van ambigue hypothese, summiere conclusies, of de resultaten van het experiment sowieso niet gedocumenteerd zijn, dan kan het opnieuw draaien van dit experiment waardevol zijn. De aanwezigheid van dit punt geeft aan hoe belangrijk het opstellen van goede hypotheses is en benadrukt tevens het belang van gestructureerde analyse en documentatie van experimenten.

Wanneer een test niet opnieuw uitvoeren?

  • Test quota nog niet gehaald
  • Experiment gaf ongewenste resultaten
  • Resultaten niet significant
  • User interface wijzigingen
  • Voorganger heeft experiment gedaan

Test quota nog niet gehaald

Sommige organisaties stellen zogenaamde test quotas in. Dit is een bepaald aantal experimenten dat per week, per maand of per jaar gedraaid dient te worden. Hoewel ik een groot voorstander ben van alles testen dat los en vast zit, draagt een quota daar niet (per se) aan bij. In plaats van bijvoorbeeld oude testen opnieuw uit te voeren om een arbitraire test quota te halen, zou mijn advies zijn om deze energie te steken in nieuwe experimenten.

Experiment gaf ongewenste resultaten

hippo-101477_640Experimenten geven indien ze goed zijn opgezet nooit onjuiste resultaten, wel vaak ongewenste resultaten. Directeuren (ook wel HIPPO’s genoemd), managers, klanten, opdrachtgevers of conversie specialisten hoopten dan namelijk om wat voor reden dan ook op een ander resultaat dan er uit de test kwam. Wanneer geen van bovenstaande factoren aanwezig zijn, dan is er geen gegronde aanleiding om een dergelijk experiment opnieuw uit te voeren.

Resultaten niet significant

Dit kan een verscheidenheid aan oorzaken hebben. Een veelvoorkomende oorzaak van niet-significante resultaten is echter dat de doorlooptijd van het experiment te kort is. Mede door druk van opdrachtgevers en managers (maar soms ook door onwetendheid van de conversie specialist) worden experimenten namelijk vaak voortijdig afgebroken. Naast de doorlooptijd kan ook simpelweg de afwezigheid van een groot genoeg verschil in gedrag tussen de varianten een reden zijn waarom er geen significante resultaten werden behaald. In het artikel ‘How Long to Run a Test’ wordt dieper op voorgaande punten en gerelateerde kwesties ingegaan. Ook kan het verstandig zijn allereerst relevante micro conversies te optimaliseren, om zo het verkeer te vergroten dat de macro conversie zal gaan nemen.

User interface wijzigingen

Wijzigingen aan de user interface zijn (zeker wanneer geen van de andere criteria hierboven aanwezig zijn) waarschijnlijk geen goede kandidaten voor her-testen. Dit gaat zeker op wanneer deze wijzigingen in lijn zijn met best practices en al helemaal niet wanneer uit een degelijk opgezette test een sterk significant verschil bleek ten gunste van de winnende variant.

Voorganger heeft experiment gedaan

Wanneer deze voorganger (of huidige collega) geen aantoonbare fouten heeft gemaakt in het opzetten of analyseren van het experiment, is er zonder de aanwezigheid van andere factoren waarschijnlijk geen reden dit experiment opnieuw uit te voeren.

Hoe kom je aan buy-in?

Soms kan het al moeilijk genoeg zijn om het aan organisaties duidelijk te maken dat bepaalde testen uitgevoerd dienen te worden. Dit is des te lastiger bij het opnieuw uitvoeren van oude experimenten. Al gauw worden er argumenten aangedragen als “maar dat hebben we toch al eens bekeken?”. Hoe ga je hiermee om en zorg je dat experimenten die voldoen aan bovenstaande eisen opnieuw getest gaan worden?

Testgedreven organisatie

agar-60571_640Het voordeel van een zogenaamde testgedreven organisatie is dat alles open staat voor discussie. Beslissingen en keuzes worden niet genomen door één persoon of een Raad van Bestuur, maar zo veel mogelijk op basis van data en onderzoeken. In een dergelijke organisatie zijn bovenstaande argumenten dan ook voldoende om een experiment opnieuw te gaan uitvoeren.

Jij bent de conversie expert

In het verleden heb je dan ook laten zien dat je uitgebreide kennis van zaken hebt en onderbouwde beslissingen neemt. Deze beslissingen hebben geleid tot interessante nieuwe bevindingen, die er op hun beurt weer tot leiden dat websites hun doelen beter behalen. Wanneer je nog niet over een dergelijke reputatie beschikt, is het zaak om hier aan te werken (en kan eventueel deze blog als referentie worden gebruikt om het her-testen aan de gang te krijgen).

Lager volume van verkeer

Vaak is het mogelijk buy-in te krijgen door het risico ergens van te verlagen. Een goed voorbeeld daarvan is natuurlijk “Laten we dat testen” in plaats van “Laten we dat doorvoeren”. In dit geval kan de drempel om een akkoord te geven op een hertest echter verlaagd worden door een verlaagde hoeveelheid verkeer door het experiment te sturen. Hiermee wordt de kans op een eventuele negatieve invloed van de test verkleind en daarmee tevens het risico om het experiment opnieuw uit te voeren. Wanneer het bezwaar ligt in de benodigde resources of tijd dan is dit argument mogelijk niet bruikbaar.

Onderdelen oude test hergebruiken

In veel gevallen is het mogelijk om delen van de oude test te hergebruiken. Denk hierbij aan stukken design, HTML/JS/CSS code, of simpelweg de setup. Wanneer er screenshots van de varianten worden opgeslagen, maakt dit het nabouwen (zelfs wanneer er geen code meer beschikbaar zou zijn) al veel eenvoudiger. Doordat dit flinke tijd en resources bespaart, kan het vaak eenvoudiger zijn buy-in te krijgen om de test opnieuw te kunnen draaien.

Te verwachten resultaten?

Bovenstaande factoren

De resultaten van het opnieuw uitgevoerde experiment zijn moeilijk te voorspellen. Wanneer het experiment in één van bovenstaande onderdelen beschreven onder wel/niet uitvoeren valt, dan kan met enige zekerheid worden verwacht dat er wel/niet dezelfde resultaten als voorheen uit zullen komen. Wanneer de omstandigheden niet hetzelfde zijn, dan kan er echter weinig over de uiteindelijke resultaten worden voorspeld.

Dit maal goed opzetten

Zorg er bij het opnieuw uitvoeren van het experiment voor dat dit maal wel alles goed is opgezet. Denk er bijvoorbeeld aan een onderbouwde keuze te maken tussen A/B of MVT testen, een goede hypothese, voldoende doorlooptijd en juist ingestelde doelen. Dit zal de kans op waardevolle learnings uit het experiment aanzienlijk vergroten.

Conclusie

Sommige experimenten zijn wel de moeite waard om opnieuw uit te voeren terwijl andere dit waarschijnlijk niet zijn. Door de beoogde experimenten naast bovenstaande checklist te leggen kan bepaald worden in welke categorie een experiment valt. Loop maar eens door je archief met experimenten en bekijk of er experimenten tussen zitten die je nog op korte termijn opnieuw kunt uitvoeren!