Esegui regolarmente test A / B sulla progettazione di un pop-up. Hai un processo, lo implementa correttamente, trovi vincitori statisticamente significativi e distribuisci versioni vincenti in tutto il sito.
I tuoi test rispondono a tutte le domande tranne una: la versione vincente è ancora migliore di quella di non aver mai mostrato un pop-up?
Un gruppo hold-out può fornire la risposta, ma, come tutto, ha un costo.
Cosa sono i gruppi hold-out?
Un gruppo di esclusione è una forma di convalida incrociata che estrae o "protende" un gruppo di utenti dal test. Puoi eseguire holdout per i test A / B e altre attività di marketing, come le campagne di e-mail a goccia in cui una percentuale di utenti non riceve alcuna e-mail.
Dopo il completamento di un test e l'implementazione della versione vincente, il gruppo hold-out rimane per settimane, mesi o, in rari casi, anni. In tal modo, il holdout tenta di quantificare "lift" – l'aumento delle entrate rispetto al non fare nulla.
Ad esempio, un coupon "sconto del 10%" (erogato tramite una campagna pop-up o posta elettronica) può generare il 15% in più di vendite rispetto a un coupon "$ 10 di sconto su un acquisto di $ 100". Tuttavia, senza un holdout, non si sa quanti consumatori avrebbero comprato senza alcun coupon – un test vincente potrebbe comunque ridurre i profitti.
Molto spesso, tuttavia, le resistenze vengono utilizzate per non misurare il sollevamento da un singolo test ma per sollevare un intero programma di sperimentazione. Poiché gli holdout richiedono il sifonamento di una porzione statisticamente rilevante di un pubblico, hanno senso solo per i siti con enormi quantità di traffico.
La differenza tra un hold-out e un gruppo di controllo
Immagina di voler testare un titolo su una pagina di prodotto. La versione a sinistra (Control) è la versione corrente, mentre la versione sperimentale (Variation A) è sulla destra:
Supponiamo, con un certo miracolo, che la Variazione A abbia un rendimento migliore e tu la implementi per tutti i visitatori. Questa è la procedura standard per un test split A / B: il 50% vede ciascuna versione durante il test e il 100% vede la versione vincente al termine del test.
Però, se continui a mostrare ai visitatori la versione di controllo, quel gruppo di controllo diventa il blocco. In altri test, il controllo non può "passare" dal controllo all'holdout. Invece, può essere un segmento separato omesso dall'inizio come la campagna di posta elettronica in cui una percentuale di abbonati non riceve nulla.
Perché un holdout può stimare il valore di uno sforzo di marketing oltre un parente miglioramento tra due versioni, alcuni lo considerano "il gold standard" nei test.
Perché i gruppi hold-out sono "il gold standard"
Per molti, le holdout sono un gold standard per i test perché misurano il valore non solo di un test ma di un programma di test.
E mentre il valore del test può essere evidente a chi vi è coinvolto, i singoli risultati dei test non si aggregano nei calcoli del ROI effettuati in C-Suite. Lì, le considerazioni vanno oltre gli KPI del sito web:
- Ha senso impiegare un gruppo di scienziati di dati o di marketing e-mail?
- Se licenzieremo l'intera squadra domani, cosa succederebbe?
Gli holdout hanno anche il potenziale per valutare l'impatto della sperimentazione sul valore della vita del cliente. Mentre un test split a breve termine può registrare un aumento dei clic, dei riempimenti dei moduli o delle vendite, non acquisisce gli effetti a lungo termine:
- I popup e le barre adesive aumentano i lead di email ma, nel tempo, riducono i visitatori di ritorno?
- Un programma di coupon alla fine riduce gli acquisti di articoli non scontati?
Alcuni effetti possono richiedere mesi o anni per materializzarsi, accumulando fattori di confusione ogni giorno. Quindi, quando si tratta di misurare l'impatto a lungo termine dei test, quanto è lungo abbastanza?
Definire lo scopo dei gruppi di holdout
Per quanto tempo dovresti mantenere un gruppo di hold-out? Senza una finestra definita, potresti fare paragoni ridicoli, come esecuzioni decennali per misurare il tuo sito attuale contro la sua versione codificata a mano dalla fine degli anni '90.
Le decisioni all'estremo sono ridicole, ma man mano che la distanza si riduce – cinque anni, tre anni, un anno, sei mesi – diventano più difficili.
Finestre di sguardo e linee di base per holdout
Quanto tempo deve trascorrere prima di aggiornare la versione "di base" del tuo sito per un gruppo di esclusione? "Dipende dai tuoi obiettivi", ha spiegato il fondatore di CXL Peep Laja. "Potresti lasciarlo invariato per tre anni, ma se vuoi misurare il ROI annuale, faresti cicli annuali.”
Che dire del grado di modifica del sito? “Quando è funzionalità, c'è un senso di permanenza,"Cory Underwood, un analista programmatore senior presso L.L. Bean, mi ha detto. “Quando fai i messaggi, entri Come efficace e Per quanto sarà efficace.”
Underwood ha continuato:
Ci sono momenti in cui vorresti ottenere una lettura più lunga. Puoi vedere questo in personalizzazione. Tu prendi di mira un segmento con un'esperienza completamente diversa nella gamma "mai" o "sempre". Dì che ha vinto e lo capovolgi sempre. Sei mesi dopo, sta ancora guidando il ritorno?
Un gruppo di esclusione offre una risposta. (Così, ha osservato Laja, potrebbe rieseguire il test A / B.) Ma non si otterrebbe un confronto mele-mele se non si tiene conto della stagionalità tra i due periodi.
In questo modo, un gruppo hold-out è unicamente gratificante e stimolante: può mitigare la stagionalità in un test A / B completato, ma reintrodurlo quando si confronta il gruppo di esclusione con il vincitore.
I rivenditori omnicanali come L.L. Bean gestiscono ulteriori complessità: dimostrando che i cambiamenti apportati al sito web hanno un impatto positivo a lungo termine sul comportamento in loco e attività offline. Le variabili aggiunte possono estendere la tempistica per le holdout. Underwood ha tenuto gruppi di hold-out per un periodo di due anni (un'anomalia, ha ammesso).
Per i tipi di test e le scadenze che meritano un gruppo di esclusione, l'implementazione ha le proprie considerazioni.
Implementazione di gruppi di ritenzione per i test
L'implementazione di holdout non è formulaica. Superficialmente, si tratta di dividere il pubblico in un segmento aggiuntivo. (I segmenti di attesa spesso vanno dall'1 al 10% del pubblico totale.) Ad esempio:
Controllo: Pubblico 1 (47,5%)
Variazione A: Audience 2 (47,5%)
Resistere: Audience 3 (5%)
Molti strumenti di test A / B consentono agli utenti di regolare i pesi per servire (o non servire) le versioni di un test al pubblico. Ma non tutti i test possono trarre vantaggio dalla segmentazione tramite piattaforme di test.
Come ha spiegato Underwood, la decisione di lanciare test sul lato client (utilizzando uno strumento di test) rispetto al lato server (tramite un CDN) dipende da due considerazioni:
- La scala del cambiamento. Le manipolazioni del DOM su larga scala implementate tramite rollout sul lato client rischiano un'esperienza utente lenta e glitch. Maggiore è la differenza tra le versioni del sito coinvolte in un test (come un holdout che conserva un design della homepage completamente diverso), più la consegna lato server ha senso.
- La specificità del targeting. Gli strumenti di test collegano i dati utente con i dati CRM per un targeting più granulare; la segmentazione lato server può essere limitata agli attributi più ampi degli utenti anonimi, come la posizione e il tipo di dispositivo, rendendo difficile testare le modifiche per un pubblico ristretto.
Ad una certa scala, ad esempio, per gli utenti mensili da un quarto di Pinterest, la creazione di una piattaforma personalizzata può accelerare i test e integrarsi più efficacemente con gli strumenti interni.
L'aspetto più importante è che un'implementazione redditizia dipende dal sapere quando un gruppo di hold-out migliora un sito Web e quando è un rivestimento costoso nascondere la sfiducia nel processo di test.
Quando i holdout funzionano
1. Per modifiche su larga scala
Al sito Più un cambiamento sarà costoso da attuare, maggiore è la giustificazione di utilizzare un gruppo di esclusione prima implementazione.
Le riserve per il dopo-fatto di un cambiamento non reversibile hanno poco senso. Ma i test avanzati per convalidare l'effetto a lungo termine lo fanno. "Come aumenta il rischio, la probabilità [of a holdout] sale anche ", riassunse Underwood.
Spesso, sottolinea Underwood, i team di marketing chiedono holdout per convalidare le proposte di modifiche estese al sito. Un holdout che conferma il valore a lungo termine dei loro piani è persuasivo per coloro che firmano l'investimento.
Per mettere in squadra le priorità. John Egan, Responsabile del settore della crescita del traffico su Pinterest, è d'accordo con Underwood: un test che implica cambiamenti più ampi merita un esame più approfondito (o, per lo meno, più lungo), che un holdout offre.
Ma i costi di sviluppo del sito non sono gli unici costi da considerare. Come spiegato da Egan, anche le holdout hanno senso quando "c'è un esperimento che è stata una vittoria massiccia e, di conseguenza, potrebbe potenzialmente causare un cambiamento nella strategia della squadra per raddoppiare realmente su quell'area".
In tali circostanze, secondo Egan, un holdout dura in genere da tre a sei mesi. Quella lunghezza è "abbastanza tempo per noi per essere sicuri che questa nuova strategia o tattica porti effettivamente a risultati a lungo termine e non guidi un picco a breve termine, ma a lungo termine è nettamente negativo".
2. Per misurare l'non tracciabile
Egan ha riconosciuto che, mentre gli holdout sono standard in Pinterest, "eseguiamo solo test di controllo per una piccola percentuale di esperimenti".
Per Pinterest, il caso d'uso principale è:
misurare l'impatto di qualcosa che è difficile da misurare completamente solo attraverso il monitoraggio. Ad esempio, eseguiremo periodici holdout in cui spegniamo email / notifiche a un piccolo numero di utenti per una settimana o un mese per vedere quanti e-mail / notifiche di coinvolgimento guidano e il loro impatto sulla conservazione a lungo termine degli utenti.
Egan ha dettagliato tale istanza su Medium. Il suo team voleva testare l'impatto dell'aggiunta di un numero di badge per inviare notifiche. Il test iniziale A / B ha rivelato che un numero distintivo aumentava gli utenti attivi giornalieri del 7% e aumentava le metriche di coinvolgimento chiave.
Eppure, Egan si chiedeva, "Il badging è efficace a lungo termine o la stanchezza dell'utente alla fine si impone e rende gli utenti immuni da esso?" Per scoprirlo, Pinterest ha creato un gruppo di trattenimento dell'1% mentre estraeva la modifica agli altri 99. % di utenti.
Il risultato? L'iniziale rialzo del 7% è sceso al 2,5% nel corso di un anno, ancora positivo ma meno drammatico rispetto ai risultati a breve termine previsti. (Una successiva modifica alla piattaforma ha riportato l'ascensore al 4%.)
Il take away per Egan era chiaro: "In generale, i gruppi di holdout dovrebbero essere utilizzati ogni volta che c'è una domanda sull'impatto a lungo termine di una funzione."
3. Per alimentare algoritmi di apprendimento automatico
Oggi una ricerca su Google su "gruppi di esclusione" ha maggiori probabilità di fornire informazioni per l'addestramento di algoritmi di apprendimento automatico rispetto alla convalida dei test A / B. I due argomenti non si escludono a vicenda.
Come spiegò Egan, holdouts per algoritmi di machine learning, "raccolgono dati sull'allenamento imparziale per l'algoritmo e assicurano che l'algoritmo di machine learning continui a funzionare come previsto."
In questo caso, un hold-out è un outlier per quanto riguarda le finestre di ricerca: "Gli algoritmi per algoritmi di apprendimento automatico funzionano per sempre.”
Questi casi d'uso hanno senso, ma tutti hanno dei costi, che possono moltiplicarsi rapidamente:
- I team dedicano tempo a identificare un segmento di attesa.
- Le squadre trascorrono del tempo mantenendo la versione definitiva del sito web.
- Una parte del pubblico non vede una modifica del sito che è stata testata meglio.
In alcuni casi, la giustificazione per un gruppo di esclusione non deriva dall'impegno a test rigorosi ma dalla sfiducia metodologica.
Quando holdouts gonna il problema più grande
Tim Stewart, che gestisce trsdigital, di solito "prepara programmi di test o li salva". Quest'ultimo, ha osservato, è più comune.
Come consulente, incontra spesso direttamente con la C-Suite, un privilegio che molti team di ottimizzazione interni non apprezzano. Quell'accesso lo ha reso scettico sull'uso di holdouts: "Con holdouts, la risposta a "Perché?" Sembra essere "Non ci fidiamo dei nostri test.‘”
Stewart non è un contrarian in piena regola. Come mi ha detto, riconosce i vantaggi dei gruppi di hold-out per identificare i drop-off dall'effetto novità, monitorare l'effetto cumulativo dei test e altri razionali dettagliati in precedenza.
Ma troppo spesso, continua Stewart, sostiene statisticamente il supporto delle squadre che non supportano in modo relazionale la legittimità del loro processo:
Capisco cosa [CEOs] volere. Ma i test non ti danno una risposta. Ti dà una probabilità che la decisione che prendi sia nella giusta direzione. Ognuno individualmente è solo così utile. Ma se si strutturano una serie di domande, è utile l'ennesimo effetto cumulativo dell'apprendimento e dell'evitare il rischio. Questa è la parte basata sulla fede.
In altre parole, un processo di test valido diminuisce la necessità di holdout. Esecuzione di questi test, ha detto Stewart, è:
un sacco di soldi, sforzi e avvertimenti [that] respinge ogni tipo di responsabilità di spiegarlo all'azienda. Per dimostrare il valore del business, dovresti dimostrarlo in altri modi.
Ciò è particolarmente vero dati i costi di opportunità.
I costi di opportunità di holdout
Le risorse di test sono limitate e l'utilizzo di risorse per holdout rallenta la velocità di testing. Come dichiarato da Amazon Bezos, "Il nostro successo su Amazon è una funzione di quanti esperimenti facciamo all'anno, al mese, alla settimana, al giorno".
I costi delle opportunità possono aumentare in modo esponenziale a causa della complessità della gestione dei gruppi di holdout, che le aziende spesso sottovalutano.
Stewart ha un'analogia: immagina uno stagno. Lancia una grande lastra di pietra nello stagno. Quanto sarebbe difficile misurare la dimensione e l'effetto delle increspature? Non troppo difficile.
Ora immagina di lanciare manciate di ciottoli nell'oceano. Che effetto ha ciascun ciottolo? Come spiegate le onde incessanti? O aggiusta le tue stime per le maree? O durante un uragano?
Nel marketing, i fattori confondenti che rendono difficile misurare l'impatto di ogni pebble (leggi: test) includono campagne di marketing offline o cambiamenti macroeconomici.
Un gruppo hold-out può ancora fornire una risposta? Sì. Ma a quale costo? Come Stewart ha chiesto: Qual è il ROI della certezza statistica misurato a tre cifre decimali invece di due se il controllo non è più di un controllo?
A un certo punto, devi includere ancora un'altra variabile: l'impatto sul ROI dall'utilizzo di holdout per misurare il ROI. E, tuttavia, tutto ciò presuppone che la creazione di un gruppo di esclusione sia fattibile.
L'illusione della fattibilità
“Non esiste un vero holdout,"Stewart ha sostenuto. "Anche su un controllo, ci sono alcune persone che entrano in dispositivi diversi." (Per non parlare, Edgar Špongolts, il nostro direttore di ottimizzazione di CXL, ha aggiunto, gli utenti con VPN e browser in incognito.)
Le holdout esacerbano le sfide della misurazione multi-dispositivo: più un test è lungo, più è probabile che qualcuno cancelli un cookie e finisca per passare da un segmento "no test" a "test". E ogni sforzo per limitare l'inquinamento del campione aumenta i costi, il che rallenta il rollout di altri test.
Supponiamo che tu voglia scendere nella tana del coniglio per determinare il ROI di un programma di test, il costo non è un fattore. Come ha sottolineato Stewart, avresti bisogno di fare di più che limitarti a mostrare un segmento di visitatori da un sito aggiornato.
Dovresti trattenere tutti i risultati dei test da un team di marketing parallelo e, poiché i siti web non sono mai statici, consentire loro di apportare modifiche alla versione di hold-out basata sull'istinto istinto. Stewart ha presentato ai dirigenti questo stesso scenario:
Quello che dobbiamo effettivamente avere è un punto di forza che include tutte le nostre cattive idee e le nostre buone idee. Non tiene un pubblico: è in esecuzione un sito senza che le persone che stanno apportando le modifiche vedano nessuno dei risultati del test. Perché dovremmo farlo ?! Esattamente il mio punto.
Stewart non fa la sua argomentazione per evitare ogni uso di holdout. Invece, si propone di esporre le motivazioni sbagliate che spesso lo richiedono. Ogni risultato del test offre probabilità, non certezza e usare gruppi di hold-out sotto la falsa pretesa di essere immuni dalle ambiguità che affliggono altri test è ingenuo e dispendioso.
Un holdout non libera gli analisti dal dialogo con il management, né la gestione dovrebbe utilizzare un risultato di "hold out" per "catturare" team o agenzie quando, di volta in volta, un risultato del test non riesce a mantenere la promessa iniziale.
"Non si tratta davvero di matematica", ha concluso Stewart. "Riguarda le persone."
Conclusione
"Puoi farlo facilmente, a basso costo e con abbastanza del tuo pubblico?" Chiese Stewart. Underwood ed Egan lo hanno fatto, ma non a causa dell'efficienza del test da solo.
Entrambi hanno guadagnato l'autonomia per distribuire risparmiatori con parsimonia. Il loro corpo di lavoro-test dopo test i cui risultati, mesi e anni lungo la strada, continuano a cadere nei limiti delle loro proiezioni iniziali – hanno costruito la fiducia a livello aziendale nel loro processo.
La fiducia dall'alto verso il basso nel processo di test si concentra sull'utilizzo degli holdout sulle loro attività appropriate:
- Scoprire i falsi positivi facilmente reversibili che i test a breve termine periodicamente interrano.
- Confermare il valore a lungo termine di un cambiamento ad alto costo prima di investire le risorse.