Proxy-metriek in e-commerce. Deel 2
In het eerste deel bespraken we de problemen die zich voordoen bij het schatten van de LTV van gebruikers van online winkels en hoe ze kunnen worden opgelost met behulp van proxy metrics. We hebben ook beschreven hoe bedrijven uit verschillende vakgebieden naar dergelijke statistieken zoeken en we hebben onze eigen lijst met gevonden statistieken die van toepassing zijn op e-commerce gedeeld.Het tweede deel (d.w.z. het deel dat je nu leest) is technischer: hierin leggen we in detail uit hoe je bruikbare proxymetriek kunt vinden en selecteren uit verschillende opties, hoe goed deze de LTV van klanten voorspelt, of winkels met verschillende productcategorieën ze kunnen gebruiken, enz.Het derde en laatste deel is meer toegepast: hierin bespreken we hoe bedrijven met de resulterende statistieken kunnen werken om de LTV van gebruikers te verhogen, en daarmee de inkomsten van de webwinkel op de lange termijn.Maar terug naar de technologie voor het vinden van proxy-metriek. Voor ons onderzoek gebruikten we machine learning-technieken en haalden we statistische patronen uit de gegevens. Daarom is het logisch om eerst iets te vertellen over de gegevens die we hebben gebruikt en op basis waarvan we conclusies hebben getrokken.
Gegevensbronnen
Retail Rocket heeft meer dan 1000 klanten over de hele wereld: Rusland, Europa, Latijns-Amerika, GOS, waarvan sommige al jaren met het bedrijf samenwerken. We selecteerden 27 online winkels die gespecialiseerd zijn in verschillende productcategorieën voor het onderzoek.
Deze verscheidenheid aan winkels was nodig om te testen of de gevonden proxy-metriek universeel zou zijn.
Beschrijving van de gegevens
Elke bezoeker van de online winkel heeft een identifier die is opgeslagen in een cookie. Deze kan worden gebruikt om bij te houden welke gebeurtenissen met betrekking tot de gebruiker hebben plaatsgevonden, wanneer en hoe.
Zulke gebeurtenissen zijn onder andere:
- Het bestellen van een artikel;
- Een product aan de winkelwagen toevoegen;
- Een artikel bekijken;
- Een categorie bekijken
- Een pagina op de site bekijken;
- De zoekmachine van de site gebruiken;
- De gebruiker heeft zijn e-mailadres achtergelaten.
Volgens onze gegevens “leeft” ongeveer 10% van alle cookies langer dan 120 dagen – wat genoeg is om verbanden te leggen tussen kenmerken en LTV. Er is echter een probleem: sommige gebruikers resetten de cookie en keren terug naar de winkel met een nieuwe ID. Hierdoor is het moeilijker om te bepalen hoe bepaalde kenmerken LTV beïnvloeden. Misschien zullen de verbanden die we hebben gevonden sterker zijn als we de gebruikers nauwkeuriger kunnen identificeren.
De logica achter de vorming van kenmerken en de doelvariabele
Om het begrijpelijker te maken, introduceren we de volgende termen:
De afsluitdatum is de datum die twee perioden scheidt: de kenmerkverzamelingsperiode (4 maanden voor de afsluitdatum) en de toekomstige LTV-informatieverzamelingsperiode (6 maanden na de afsluitdatum).
Als de afsluitdatum bijvoorbeeld 1 juli 2020 is, dan worden kenmerken verzameld van 1 maart 2020 tot en met 1 juli 2020 en toekomstige LTV-informatie wordt verzameld van 2 juli 2020 tot en met 1 januari 2021.
De doelvariabele in onze studie (de informatie die we willen voorspellen) is het feit van aankoop tijdens de periode van het verzamelen van informatie over toekomstige LTV. We hebben alleen rekening gehouden met bezoekers uit de periode waarin we informatie over de toekomstige LTV hebben verzameld, en als we geen gerelateerde gebeurtenissen hebben gevonden tijdens de periode waarin we informatie over de toekomstige LTV hebben verzameld, zijn we ervan uitgegaan dat een dergelijke gebruiker niets heeft gekocht.
Om te testen of de gevonden afhankelijkheden in de loop van de tijd stabiel waren, namen we 6 segmenten van elk van de 27 winkels (de eerste dag van elke maand van juli tot december 2020).
Om kandidaat-proxymetingen te selecteren, stelden we een uitgebreide lijst samen. Deze bevatte kenmerken met betrekking tot:
- Bestellingen: hoeveelheid, leeftijd van laatste aankoop, gemiddelde cheque, omzet, enz;
- Artikelen toevoegen aan het winkelwagentje: na verloop van tijd, in de afgelopen week;
- Vertrouwdheid met de catalogus van de winkel: het aantal keer dat producten en categorieën werden bekeken, het aantal keer dat de catalogus in de afgelopen week werd bekeken;
- Gebruik van de zoekmachine van de site: het aantal zoekopdrachten in de zoekmachine van de site gedurende de hele tijd, gedurende de afgelopen week;
- Tijd doorgebracht op de site: het verschil in dagen tussen het eerste en laatste bezoek aan de site, de leeftijd van het laatste bezoek aan de site, activiteit op de site tijdens werk- en niet-werkuren, op specifieke dagen van de week;
- Het feit van inschrijving: of u een e-mail hebt achtergelaten of niet, hoe lang geleden u abonnee bent geworden;
- Het apparaat waarmee de site is bezocht: computer of smartphone, exacte browserversie, IP van de gebruiker;
Verschillende ratio’s van attributen en aggregaten: bijvoorbeeld het aandeel van de productweergaves van de laatste week ten opzichte van de weergaven van de hele tijd, het totale aantal categorie-, product- en zoekopdrachtweergaves, het aandeel van zoekopdrachten in alle gebruikersacties op de site, enz.
We voerden het onderzoek uit voor alle 27 winkels, maar voor het gemak tonen we als voorbeeld de resultaten van de twee grootste en meest gedifferentieerde winkels. “Winkel 1” heeft de meeste bezoekers die bestellingen doen en een korte consumptieperiode, terwijl “Winkel 2” daarentegen de minste bezoekers heeft die bestellingen doen en een lange consumptieperiode.
Attributen selecteren op basis van hun invloed op de doelvariabele
De doelvariabele is binair – de gebruiker doet een aankoop of niet – dus hebben we de kracht van individuele kenmerken en het model als geheel gemeten met behulp van de ROC AUC-metriek.
Eerst keken we hoe significant elk kenmerk was met behulp van een bousting-algoritme over beslisbomen. Daarna lieten we de kenmerken met een hoge ROC AUC-waarde staan. Op deze manier hebben we de zwakke kenmerken geëlimineerd en onder de overgebleven kenmerken veel goede kandidaten gevonden voor proxymetrieken met hoge ROC AUC-waarden.
Selectie van kenmerken op basis van correlatie
Er waren veel paren met een hoge correlatie tussen de kenmerken. Het is zinloos om ze samen op te nemen in de uiteindelijke lijst van LTV proxy metrieken, omdat ze op dezelfde manier veranderen en het moeilijk is om een groot aantal kenmerken te volgen. Als u het model traint op een gecorreleerde verzameling kenmerken, kunnen er ook problemen ontstaan met de parameterstabiliteit en het verdere gebruik van het model.
Er zijn bijvoorbeeld drie sterke kenmerken:
Aantal bekeken producten;
Aantal verschillende bekeken producten;
Aantal verschillende categorieën bekeken.
De correlatie tussen deze kenmerken is groter dan 80%: ze geven allemaal aan dat de gebruiker bekend is met de catalogus van de winkel en geïnteresseerd is in de producten. Daarom kan elk van deze kenmerken worden genomen als een proxy metriek. Waarschijnlijk zal “aantal verschillende categorieën bekeken” nuttiger zijn voor winkels met een groot aantal categorieën, en “aantal verschillende producten bekeken” zal nuttiger zijn voor winkels met een aantal categorieën maar een groot aantal verschillende producten.
We hebben het kenmerk “aantal verschillende producten bekeken” behouden omdat het verantwoordelijk is voor de bekendheid met de catalogus en gerelateerd is aan de effectieve grootte van de catalogus. Ook hebben we het beoordelingsartikel teruggedraaid, omdat het wordt geëvalueerd als zijnde van zakelijke waarde.
Op zijn beurt is de metriek “aantal productweergaven” niet altijd robuust voor uitschieters in de gegevens. Als een bezoeker bijvoorbeeld een abnormaal hoog aantal keren een enkel product heeft bekeken, heeft dit weinig zakelijke waarde.
We deden hetzelfde met andere paren correlerende kenmerken. Uiteindelijk hebben we een paar kenmerken over orders (ze zijn gecorreleerd, maar worden vaak door onze klanten gebruikt als proxy LTV-metriek) en de sterkste kenmerken die niet gerelateerd zijn aan orders, overgelaten:
- Aantal orders;
- Gemiddelde check;
- Inkomsten;
- De leeftijd van de laatste bestelling in dagen;
- Bezoeker heeft e-mail verlaten;
- Type browser;
- Type apparaat;
- Tijdsduur sinds laatste bezoek aan de site;
- Aantal verschillende producten bekeken;
- Duur van de interactie van de gebruiker met de site in dagen (verschil in dagen tussen het eerste en laatste bezoek);
- Aantal zoekopdrachten in de zoekmachine van de site;
- Aantal producten dat aan het winkelwagentje is toegevoegd.
Zoals we in bovenstaande grafieken kunnen zien, correleren alleen bestelgerelateerde kenmerken en een paar andere paren met elkaar:
Browsertype en Apparaattype hebben een relatief zwakke correlatie, dus beide kenmerken kunnen nuttig zijn voor een winkel. Voor sommige winkels kan het echter beter zijn om ze te combineren;
Aantal items toegevoegd aan winkelwagentje en aantal bestellingen hebben ook een correlatie, omdat het gebruikelijk is om een item aan het winkelwagentje toe te voegen voordat je het bestelt. De mate van correlatie van deze kenmerken hangt af van winkeleigenschappen, bijvoorbeeld het aandeel verlaten winkelmandjes. In de grafieken zien we dat de correlatie voor winkel 1 laag is;
De kenmerken abonnement en bestelling kunnen met elkaar correleren, omdat in sommige winkels gebruikers automatisch abonnee worden nadat ze een aankoop hebben gedaan.
Checking the stability of trait performance over time
Traits have the same effect on future LTV estimates regardless of the cutoff date. For example, if users with 10 views of different products on average have a higher future LTV than users with 2 views, this is true for every month.
To test this assertion, we constructed graphs on which we categorized visitors into groups by intervals of attribute values and for each group we plotted the proportion of visitors who made an order in the future.
Contribution of selected proxy metrics to model quality
Based on the selected attributes, we built the model using boosting over decision trees – sequentially adding attributes in the following order and measuring its quality:
Order-related attributes;
- Number of items added to the cart;
- Visitor left email;
- Device type;
- Browser type;
- Number of queries in the site’s search engine;
- Length of time the user interacted with the site;
- Number of different products viewed;
- The length of time since the last visit to the site;
Deze volgorde was nodig om te zien of de niet-order-gerelateerde kenmerken extra nuttige informatie voor het model bevatten in vergelijking met de order-gerelateerde kenmerken.
Zoals we hierboven kunnen zien, voegen ordergerelateerde kenmerken (gemiddelde cheque, omzet, laatste aankoop) weinig extra informatie toe aan het kenmerk “aantal bestellingen”, dus kunnen we één ordergerelateerde indicator onder de proxymetriek laten staan. We hebben gekozen voor de indicator die het best bestand is tegen uitschieters: “aantal bestellingen”. In deze grafiek kunt u ook zien hoe belangrijk alle volgende kenmerken zijn – elk kenmerk voegt LTV-informatie toe die niet in de vorige kenmerken zit.
We hebben dergelijke analyses uitgevoerd voor alle 27 winkels – en overal bleken de niet-bestelgerelateerde kenmerken die we selecteerden een sterke correlatie te hebben met LTV en veel extra informatie toe te voegen aan de bestelgerelateerde kenmerken.
Vaak had één enkel kenmerk, zoals “aantal verschillende bekeken producten” of “leeftijd van laatste sitebezoek” een ROC AUC die groter was dan alle bestelgerelateerde kenmerken samen. Dit is te wijten aan het feit dat in vergelijking met de totale massa bezoekers van online winkels, bestellingen worden gedaan door een zeer klein deel van de gebruikers. Er zijn dan ook minder gegevens over hen. In onze steekproef had slechts één winkel een aandeel van 10% gebruikers met bestellingen, terwijl de rest 2-5% had.
Vervolgens veranderden we de volgorde van het toevoegen van attributen en keken we hoe het model verandert als we eerst niet-order-gerelateerde attributen laden en daarna order-gerelateerde.
We hebben de bevindingen van dit hoofdstuk getest op alle winkels die we hebben bestudeerd en ze werden bevestigd.
In het volgende hoofdstuk bespreken we hoe bedrijven met deze statistieken kunnen werken om de LTV van gebruikers te verhogen en daarmee de inkomsten van een online winkel op de lange termijn.