Proxy-metriek in e-commerce. Deel 1
In het eerste deel bespreken we de problemen die zich voordoen bij het beoordelen van de langetermijnwaarde van een gebruiker van een webwinkel en hoe deze kunnen worden opgelost door proxy-metrics te gebruiken. We vertellen ook hoe bedrijven uit verschillende vakgebieden op zoek zijn naar dergelijke metrieken en delen onze eigen lijst van ontwikkelde metrieken die toepasbaar zijn in e-commerce.
In het tweede deel geven we een technische beschrijving. Hoe de metrics werken, of winkels met verschillende productcategorieën ze kunnen gebruiken, hoe bruikbare proxy-metrics kunnen worden geselecteerd uit een verscheidenheid aan opties en hoe goed ze de gebruikerswaarde op lange termijn voorspellen.
In deel drie bespreken we de zakelijke interpretatie van de resulterende statistieken en hoe je ze kunt gebruiken om de langetermijnwaarde van gebruikers te optimaliseren, en daarmee de langetermijninkomsten van je webwinkel.
Wat zijn proxy statistieken en waarom heb je ze nodig?
Een van de belangrijkste statistieken die de meeste bedrijven (waaronder online winkels) optimaliseren is LTV, d.w.z. een meting van de inkomsten die een bedrijf genereert gedurende de hele tijd dat het met een klant heeft gewerkt.
Als je LTV kent, kun je inkomsten voorspellen, advertentiekosten plannen, ROI schatten, de meest loyale bezoekers berekenen, het publiek segmenteren op waarde, enz. Het is dus een zeer belangrijke metriek, en wanneer er een belangrijke verandering wordt gepland, is het belangrijk om te weten hoe die de LTV zal beïnvloeden.
Hoe een verandering de metriek heeft beïnvloed, wordt geëvalueerd in relatie tot een andere verandering of het ontbreken daarvan. Dit wordt meestal bereikt door hypothesetests uit te voeren. Als langetermijnmetriek – zoals werkelijke LTV – wordt gebruikt, hebben we te maken met de volgende problemen:
- Het testen van hypotheses duurt langer en als gevolg daarvan duurt het langer om veranderingen door te voeren;
- Als er meerdere tests tegelijk worden uitgevoerd, is het niet altijd duidelijk welke verandering uiteindelijk de LTV heeft verhoogd of verlaagd;
- In het geval van testen op lange termijn is het noodzakelijk om alle geteste versies van algoritmen voortdurend te onderhouden en door te rekenen;
- Online retailers maken vaak niet-hypothesegerelateerde wijzigingen die zeer waarschijnlijk het gedrag van de test beïnvloeden;
- Hoe langer de test wordt uitgevoerd, hoe vaker er opslagfouten optreden die het resultaat onbetrouwbaar maken;
In e-commerce wordt een unieke gebruiker meestal geïdentificeerd door cookies, die vaak verloren gaan in een lange test. Dit artikel beschrijft bijvoorbeeld een Facebook-experiment waarbij er verschillende cookies per gebruiker waren – deze vielen in verschillende segmenten van de test en maakten het moeilijk om het echte effect van de verandering te identificeren.
Vanwege bovenstaande problemen is het bijna onmogelijk om verbeteringen te testen op basis van veranderingen in de werkelijke LTV. Als oplossing stellen we voor om LTV proxy metrieken te gebruiken, die veel minder tijd nodig hebben om veranderingen te detecteren.
De proxy metriek is een proxy meting van de doel metriek, waarmee het sterk gecorreleerd is. Door de verandering in de proxy metriek zouden we op zijn minst de richting van de verandering in de doel metriek moeten begrijpen. Het BBP per hoofd van de bevolking kan bijvoorbeeld een proxy zijn voor de levenskwaliteit in een bepaalde regio.
Vaak kiezen onze klanten (online retailers) ordergerelateerde attributen als LTV proxy-metriek: bijv. conversie naar klant, gemiddeld aantal bestellingen per gebruiker, gemiddelde cheque, gemiddelde omzet per gebruiker in het verleden, enz. Deze kenmerken correleren met toekomstige LTV, want als een gebruiker in het verleden een aankoop heeft gedaan, neemt de kans op een herhalingsaankoop in de toekomst toe.
Maar er blijft een belangrijke vraag over: zijn er geen proxy-metrieken die nuttiger zijn voor het beoordelen van de impact op toekomstige LTV van huidige winkelwijzigingen? We besloten dit te onderzoeken.
Hoe proxy statistieken worden gekozen en gebruikt buiten E-commerce
Proxy metrics worden gebruikt om een algemeen evaluatiecriterium voor verandering te vormen – OEC (overall evaluation criterion, lees meer in het artikel van Microsoft). Dit is een kwantitatieve maatstaf voor het doel van het experiment, dat de bedrijfsdoelen van het bedrijf moet weerspiegelen – bijvoorbeeld gerelateerd zijn aan LTV. Het is nodig om het proces van het nemen van een beslissing om bepaalde veranderingen door te voeren te automatiseren en formaliseren. Bij het vormen van een OEC worden de metrics van alle doelen van het experiment gereduceerd tot een enkele indicator.
De huidige uitdagingen van online experimenten worden goed behandeld in een overzichtsartikel van medewerkers van Microsoft, Google, Facebook, LinkedIn, AirBnb, Netflix, Amazon, Yandex, Uber en Twitter. Het artikel bespreekt de problemen die zich voordoen bij het schatten van langetermijneffecten en somt de eigenschappen op van goede proxy-metrieken voor OEC:
- Proxy metrics moeten gerelateerd zijn aan een lange termijn doel, zoals LTV. Het moet op zijn minst duidelijk zijn in welke richting de indicator zal veranderen als de metriek wordt veranderd;
- Goede proxymetriek is moeilijk te verbeteren door de “verkeerde” dingen te doen. YouTube gebruikt bijvoorbeeld een lange CTR-metriek in plaats van conversie naar klikken (CTR), waarbij een klik alleen telt als de gebruiker een aanzienlijk deel van de video heeft bekeken. Dit komt omdat CTR kan worden verhoogd door “clickbait” te gebruiken in de titel en de gebruiker te misleiden over de inhoud van de video, waardoor de tevredenheid over de service uiteindelijk afneemt;
- Proxy-metriek moet gevoelig zijn voor veranderingen die het langetermijndoel beïnvloeden. Gebruikers van een bepaald apparaattype kunnen bijvoorbeeld de langetermijndoelstelling aanzienlijk beïnvloeden, maar het is moeilijk om dit aandeel te verhogen;
- Voor het berekenen van proxymetriek zijn niet veel middelen nodig. Opiniepeilingen zijn bijvoorbeeld niet geschikt als dergelijke statistieken;
Het criterium dat gevormd wordt op basis van proxy-metriek kan rekening houden met nieuwe scenario’s. Een voorbeeld van een inflexibel criterium – een winkel verkocht tv’s en gebruikte een metriek gebaseerd op schermdiagonaal. Vervolgens werden stofzuigers aan het assortiment toegevoegd, waarop deze metriek niet van toepassing is, dus kan deze niet worden gebruikt om rekening te houden met het nieuwe type product.
Het vinden van geschikte proxy-metrieken voor OEC is niet altijd eenvoudig. Het Microsoft-stuk geeft een voorbeeld van hoe Microsofts zoekmachine Bing intuïtieve meeteenheden koos voor optimalisatie: aantal zoekopdrachten en omzet. Op een gegeven moment verscheen er een bug en begonnen de zoekresultaten duidelijk slechter te werken – gebruikers kregen 10 advertentieregels per vertoning te zien aan het begin van de lijst. Om het gewenste resultaat te vinden, moesten mensen meer zoekopdrachten uitvoeren, dus was er meer reclame, en daarmee stegen ook de inkomsten.
Deze veranderingen verhoogden op korte termijn het aantal zoekopdrachten per gebruiker met 10% en de inkomsten met 30%, maar als ze werden doorgevoerd, zou dit de loyaliteit van gebruikers verminderen en zouden ze uiteindelijk naar de concurrent vertrekken. Dit voorbeeld illustreert hoe kortetermijncijfers kunnen afwijken van de langetermijndoelen van een bedrijf.
Het is gemakkelijk om hetzelfde te doen in een online winkel – alle prijzen verhogen, wat kan leiden tot een stijging van de gemiddelde cheque en de omzet, maar op de lange termijn zullen gebruikers de voorkeur geven aan concurrenten.
Een ander nadeel van het gebruik van attributen over bestellingen als proxymetriek is hun lage gevoeligheid, omdat vaak slechts een klein deel van de hele gebruikersstroom bestellingen doet – meestal maximaal 5%. Om significante veranderingen in deze statistieken vast te leggen, moet je dus lange tests uitvoeren.
Er zijn twee populaire manieren die bedrijven gebruiken om bruikbare proxymetingen van een langetermijndoelstelling te vinden:
Maak gebruik van vak- en bedrijfskennis. Zo hebben zoekmachines Bing en Google hun langetermijndoelstelling gedefinieerd als gebruikerstevredenheid over de service, en proxymetingen zijn het aantal sessies en het aantal zoekopdrachten per sessie. Weinig zoekopdrachten per sessie en veel sessies zelf betekenen dat de gebruiker snel het antwoord vindt dat hij zoekt en regelmatig terugkeert.
Gebruik machine learning-algoritmen om kenmerken te identificeren die langetermijnstatistieken goed voorspellen. Dit artikel beschrijft bijvoorbeeld hoe Netflix leerde voorspellen of een gebruiker zijn abonnement de volgende maand zou behouden (retentie). Ze vonden een sterke correlatie tussen retentie en de tijd die een gebruiker besteedt aan het bekijken van content (een maat voor gebruikersbetrokkenheid) en gebruikten de maat voor gebruikersbetrokkenheid als een proxy metriek voor retentie. LinkedIn leidde zijn proxy-metriek op bijna dezelfde manier af en bouwde een LTV-voorspellingsmodel.
Deze twee methoden zijn goed te combineren – je kunt een aantal kandidaat proxy-metriekjes vinden met behulp van machine learning en alleen die metriekjes selecteren die zakelijk zinvol zijn.
Welke proxy statistieken we hebben gevonden.
Om metrieken te vinden die LTV kunnen vervangen, hebben we algoritmen voor machinaal leren gebruikt. Daaruit hebben we vervolgens diegene geselecteerd die het meest bruikbaar en begrijpelijk zijn voor het bedrijf. In ons onderzoek hebben we ons gebaseerd op gegevens van 27 winkels met verschillende productcategorieën. Dankzij deze diversiteit konden we de meest universele en bruikbare proxy-metriek vinden die voor veel winkels zou moeten werken.
Om de LTV van deze reeks winkels te voorspellen, gebruikten we de volgende statistieken:
- Aantal bestellingen;
- Aantal gebruikersabonnementen;
- Duur van het laatste bezoek aan de winkel;
- Aantal verschillende producten bekeken;
- Duur van de interactie van de gebruiker met de winkel;
- Hoe vaak de bezoeker de interne zoekfunctie van de winkel heeft gebruikt;
- Het aantal producten dat aan het winkelwagentje is toegevoegd.
De grafiek toont het resultaat van het model op basis van de bovenstaande proxy-metriek (een voorbeeld van een van de winkels).
We verdeelden gebruikers in drie segmenten, afhankelijk van hun acties in het verleden:
- Kopen
- Artikelen toegevoegd aan het winkelwagentje, maar niet gekocht
- Niets aan het winkelwagentje toegevoegd
Vervolgens hebben we de gebruikers in elk segment ingedeeld in groepen op basis van hun waarschijnlijkheid van aankoop volgens het model. Elke groep toont het aantal en percentage gebruikers die in de komende zes maanden een aankoop hebben gedaan. Zoals we kunnen zien, is het model bedreven in het markeren van bezoekers met een grotere kans op een aankoop in de toekomst, zelfs onder degenen die nog niets hebben gekocht of aan hun winkelwagen hebben toegevoegd.
In de volgende afleveringen zullen we gedetailleerd beschrijven hoe we proxygegevens hebben geselecteerd uit een uitgebreide lijst met kandidaten en hoe nauwkeurig deze helpen bij het voorspellen van LTV. We zullen ook de technische details van het onderzoek beschrijven.