
Test A / B: per tutto il contenuto in circolazione, le persone continuano a sbagliare. Dal test delle cose sbagliate all'esecuzione errata dei test A / B, ci sono molti modi per sbagliarla.
Ecco cosa tratteremo in questo tutorial:
- Che cos'è il test A / B?
- Come migliorare i risultati dei test A / B
- Come dare priorità alle ipotesi del test A / B
- Per quanto tempo eseguire i test A / B
- Come impostare i test A / B
- Come analizzare i risultati dei test A / B
- Come archiviare i test A / B passati
- Statistiche sui test A / B
- Strumenti e risorse per i test A / B
Che cos'è il test A / B?
Il test A / B divide il traffico 50/50 tra un controllo e una variazione. A / B split testing è un nuovo termine per una vecchia tecnica: sperimentazione controllata.
Quando i ricercatori testano l'efficacia di nuovi farmaci, usano un "split test". In effetti, la maggior parte degli esperimenti di ricerca potrebbe essere considerata un "split test", completo di ipotesi, controllo, variazione e risultati calcolati statisticamente.
Questo è tutto. Ad esempio, se hai eseguito un semplice test A / B, si tratterebbe di una suddivisione del traffico 50/50 tra la pagina originale e una variante:

Per l'ottimizzazione delle conversioni, la differenza principale è la variabilità del traffico Internet. In un laboratorio, è più facile controllare le variabili esterne. Online, puoi mitigarli, ma è difficile creare un test puramente controllato.
Inoltre, testare nuovi farmaci richiede un certo grado di precisione. Le vite sono in linea. In termini tecnici, il periodo di "esplorazione" può essere molto più lungo, poiché vuoi essere dannatamente sicuro di non commettere un errore di tipo I (falso positivo).
Online, il processo per i split test A / B considera gli obiettivi aziendali. Pesa rischio contro ricompensa, esplorazione contro sfruttamento, scienza contro affari. Pertanto, visualizziamo i risultati attraverso un obiettivo diverso e prendiamo decisioni in modo diverso rispetto a quelli che eseguono i test
Ovviamente puoi creare più di due varianti. I test con più di due varianti sono noti come test A / B / n. Se hai abbastanza traffico, puoi testare tutte le variazioni che desideri. Ecco un esempio di test A / B / C / D e la quantità di traffico assegnata a ciascuna variante:

I test A / B / n sono ottimi per implementare più varianti della stessa ipotesi, ma richiedono più traffico perché lo dividono tra più pagine.
I test A / B, mentre i più popolari, sono solo un tipo di esperimento online. Puoi anche eseguire test multivariati e banditi.
Test A / B, test multivariati e algoritmi bandit: qual è la differenza?
I test A / B / n sono esperimenti controllati che eseguono una o più variazioni rispetto alla pagina originale. I risultati confrontano i tassi di conversione tra le variazioni in base a una singola modifica.
I test multivariati testano più versioni di una pagina per isolare quali attributi causano il maggiore impatto. In altre parole, I test multivariati sono come i test A / B / n in quanto testano un originale rispetto alle variazioni, ma ogni variazione contiene elementi di design diversi. Per esempio:

Ogni elemento ha un impatto specifico e un caso d'uso per aiutarti a ottenere il massimo dal tuo sito. Ecco come:
- Utilizzare i test A / B per determinare i layout migliori.
- Utilizzare test multivariati per lucidare i layout e assicurarsi che tutti gli elementi interagiscano bene insieme.
Devi una tonnellata del traffico verso la pagina che stai testando prima ancora di prendere in considerazione i test multivariati. Ma se hai abbastanza traffico, dovresti usare entrambi i tipi di test nel tuo programma di ottimizzazione.
La maggior parte delle agenzie dà la priorità ai test A / B perché di solito testate cambiamenti più significativi (con maggiori potenziali impatti
Gli algoritmi Bandit sono test A / B / n che si aggiornano in tempo reale in base alle prestazioni di ogni variazione.
In sostanza, un algoritmo bandito inizia inviando il traffico a due (o più) pagine: l'originale e le variazioni. Quindi, per "tirare più spesso il braccio della slot machine vincente", l'algoritmo si aggiorna in base alla variante "vincente". Alla fine, l'algoritmo sfrutta appieno l'opzione migliore:
Uno dei vantaggi dei test sui banditi è che i banditi mitigano il "rimpianto", che è l'opportunità di conversione persa che si verifica durante il test di una variazione potenzialmente peggiore. Questo grafico di Google lo spiega molto bene:
I banditi e i test A / B / n hanno ciascuno uno scopo. In generale, i banditi sono fantastici per:
Indipendentemente dal tipo di test che esegui, è importante disporre di un processo che aumenti le tue probabilità di successo. Ciò significa eseguire più test, vincere più test e realizzare impianti più grandi.
Pianificazione test A / B: come costruire un processo che funzioni
Un forte piano di test A / B ti consentirà di aumentare le tue entrate e apprendere preziose informazioni sui tuoi clienti.

Come migliorare i risultati dei test A / B
Ignora i post sul blog che indicano "99 cose che puoi testare A / B in questo momento". Sono una perdita di tempo e traffico. UN processi ti farà guadagnare di più.
Circa il 74% degli ottimizzatori con un approccio strutturato alla conversione afferma anche un miglioramento delle vendite. Coloro che non hanno un approccio strutturato rimangono in quello che Craig Sullivan chiama "Trough of Disillusionment". (A meno che i loro risultati non siano disseminati di falsi positivi, di cui parleremo più avanti).
Per semplificare un processo vincente, la struttura va in questo modo:
- Ricerca;
- Definizione delle priorità;
- Sperimentazione;
- Analizza, impara, ripeti.
Ricerca: ottenere informazioni basate sui dati
Per iniziare l'ottimizzazione, devi sapere cosa stanno facendo i tuoi utenti e perché.
Prima di pensare all'ottimizzazione e ai test, tuttavia, consolida la tua strategia di alto livello e scendi da lì. Quindi, pensa in questo ordine:
- Definisci i tuoi obiettivi aziendali.
- Definisci gli obiettivi del tuo sito Web.
- Definisci i tuoi indicatori chiave di prestazione.
- Definisci le metriche target.

Una volta che sai dove vuoi andare, puoi raccogliere i dati necessari per arrivarci. Per fare ciò, raccomandiamo il Framework ResearchXL.
Ecco il riepilogo esecutivo del processo che utilizziamo in CXL:
- Analisi euristica;
- Analisi tecnica;
- Analisi di analisi web;
- Analisi di tracciamento del mouse;
- Sondaggi qualitativi;
- Test dell'utente.
Analisi euristica è quasi il più vicino possibile alle "migliori pratiche". Anche dopo anni di esperienza, non si può ancora dire esattamente cosa funzionerà. Ma puoi identificare le aree di opportunità. Come dice Craig Sullivan:

Craig Sullivan:
"La mia esperienza nell'osservare e sistemare le cose: questi schemi mi rendono un migliore diagnostico, ma non funzionano come verità: guidano e informano il mio lavoro, ma non forniscono garanzie".
L'umiltà è cruciale. Aiuta anche ad avere un quadro. Quando si esegue l'analisi euristica, valutiamo ogni pagina in base a quanto segue:
- Pertinenza;
- Chiarezza;
- Valore;
- Attrito;
- Distrazione.
Analisi tecnica è una zona spesso trascurata. I bug, se presenti, sono un killer di conversione. Potresti pensare che il tuo sito funzioni perfettamente in termini di esperienza utente e funzionalità. Funziona ugualmente bene con ogni browser e dispositivo? Probabilmente no.
Questo è un frutto basso e altamente redditizio. Quindi, inizia da:
Analisi di analisi web È dopo. La prima cosa: assicurati che tutto funzioni. (Saresti sorpreso da quante impostazioni di analisi sono rotte.)
Google Analytics (e altre impostazioni di analisi) sono un corso in sé, quindi ti lascerò con alcuni link utili:
Il prossimo è analisi di tracciamento del mouse, che include mappe di calore, mappe di scorrimento, mappe dei clic, analisi dei moduli e replay delle sessioni utente. Non lasciarti trasportare dalle belle visualizzazioni delle mappe dei clic. Assicurati di informare i tuoi obiettivi più grandi con questo passaggio.
Ricerca qualitativa ti dice il perché che manca l'analisi quantitativa. Molte persone pensano che l'analisi qualitativa sia "più morbida" o più semplice di quella quantitativa, ma dovrebbe essere altrettanto rigorosa e in grado di fornire approfondimenti importanti quanto quelli dell'analisi.
Per la ricerca qualitativa, usa cose come:
Dopo un'attenta ricerca sulle conversioni, avrai molti dati. Il prossimo passo è dare la priorità a quei dati per il test.
Come stabilire le priorità delle ipotesi di test A / B
Esistono molti framework per stabilire le priorità dei test A / B e potresti persino innovare con la tua formula. Ecco un modo per dare priorità al lavoro condiviso da Craig Sullivan.
Dopo aver eseguito tutti e sei i passaggi, tu volontà trovare problemi – alcuni gravi, altri minori. Assegna ogni
- Test. Questo secchio è il posto in cui metti le cose per i test.
- Strumento. Ciò può comportare la correzione, l'aggiunta o il miglioramento della gestione di tag / eventi nell'analisi.
- Ipotizzare. È qui che hai trovato una pagina, un widget o un processo che non funziona bene ma non rivela una soluzione chiara.
- Fallo e basta. Ecco il secchio per chi non ha cervello. Fallo e basta.
- Indagare. Se un oggetto si trova in questo bucket, devi fare domande o scavare più a fondo.
Classifica ogni numero da 1 a 5 stelle (1 = minore, 5 = critico). Esistono due criteri che sono più importanti di altri quando si assegna un punteggio:
- Facilità di implementazione (/ Complessità / rischio di tempo). A volte, i dati ti dicono di creare una funzionalità che richiederà mesi per svilupparsi. Non iniziare da qui.
- Opportunità. Segna i problemi in modo soggettivo in base all'entità del passaggio o del cambiamento che possono generare.
Crea un foglio di calcolo con tutti i tuoi dati. Avrai una roadmap di test prioritaria.
Abbiamo creato il nostro modello di prioritizzazione per eliminare la soggettività (il più possibile). È basato sulla necessità di portare dati al tavolo. Si chiama PXL e si presenta così:

Prendi la tua copia di questo modello di foglio di lavoro qui. Basta fare clic su File> Crea una copia per renderlo tuo.
Invece di indovinare quale potrebbe essere l'impatto, questo framework ti pone una serie di domande al riguardo:
- È il cambiamento above the fold? Sempre più persone notano cambiamenti above the fold. Pertanto, è più probabile che tali modifiche abbiano un impatto.
- Il cambiamento è evidente in meno di 5 secondi? Mostra a un gruppo di persone il controllo e quindi le variazioni. Possono dire una differenza dopo 5 secondi? In caso contrario, è probabile che abbia un impatto minore.
- Aggiunge o rimuove qualcosa? Cambiamenti più grandi come la rimozione delle distrazioni o l'aggiunta di informazioni chiave tendono ad avere un impatto maggiore.
- Il test viene eseguito su pagine ad alto traffico? Un miglioramento di una pagina ad alto traffico genera rendimenti maggiori.
Molte potenziali variabili di test richiedono dati per stabilire le priorità delle tue ipotesi. Le discussioni settimanali che pongono queste quattro domande ti aiuteranno a dare la priorità ai test in base ai dati, non alle opinioni:
- Sta risolvendo un problema rilevato tramite test utente?
- Sta affrontando un problema scoperto tramite feedback qualitativo (sondaggi, sondaggi, interviste)?
- L'ipotesi è supportata dal tracciamento del mouse, dalle mappe di calore o dal tracciamento oculare?
- Sta affrontando approfondimenti trovati tramite analisi digitali?
Abbiamo anche posto limiti alla facilità di implementazione raggruppando le risposte in base al tempo stimato. Idealmente, uno sviluppatore di test fa parte delle discussioni sulle priorità.
Classificazione PXL
Assumiamo una scala binaria: devi scegliere l'uno o l'altro. Quindi, per la maggior parte delle variabili (se non diversamente indicato), scegli uno 0 o un 1.
Ma vogliamo anche ponderare le variabili in base all'importanza: quanto è evidente il cambiamento, se qualcosa viene aggiunto / rimosso, facilità di implementazione. Per t
personalizzazione
Abbiamo creato questo modello con la convinzione che puoi e dovresti personalizzare le variabili in base a ciò che conta per la tua azienda.
Ad esempio, forse stai lavorando con un team di branding o esperienza utente e le ipotesi devono essere conformi alle linee guida del marchio. Aggiungilo come variabile.
Forse sei in una startup il cui motore di acquisizione è alimentato dalla SEO. Forse il tuo finanziamento dipende da quel flusso di clienti. Aggiungi una categoria come "non interferisce con il SEO", che potrebbe alterare alcuni titoli o test di copia.
Tutte le organizzazioni operano con presupposti diversi. La personalizzazione del modello può renderne conto e ottimizzare il tuo programma di ottimizzazione.
Qualunque sia il framework che utilizzi, rendilo sistematico e comprensibile a tutti i membri del team, nonché agli stakeholder.
Per quanto tempo eseguire i test A / B
Prima regola: Non interrompere un test solo perché raggiunge un significato statistico. Questo è probabilmente l'errore più comune commesso da ottimizzatori per principianti con buone intenzioni.
Se chiami i test quando raggiungi la rilevanza, scoprirai che la maggior parte degli ascensori non si traducono in maggiori entrate (questo è l'obiettivo, dopo tutto). Gli "ascensori" erano, infatti, immaginari.
Considera questo: quando sono stati eseguiti 1.000 test A / A (due pagine identiche):
- 771 esperimenti su 1.000 hanno raggiunto il 90% di significato a un certo punto.
- 531 esperimenti su 1.000 hanno raggiunto una rilevanza del 95% ad un certo punto.
L'arresto dei test con significatività comporta rischi di falsi positivi ed esclude minacce di validità esterna, come la stagionalità.
Predeterminare una dimensione del campione ed eseguire il test per intere settimane, in genere almeno due cicli economici.
Come si predeterminano le dimensioni del campione? Ci sono molti ottimi strumenti. Ecco come calcolare le dimensioni del campione con lo strumento di Evan Miller:

In questo esempio, abbiamo detto allo strumento che abbiamo un tasso di conversione del 3% e che vogliamo rilevare un aumento del 10%. Lo strumento ci dice che abbiamo bisogno di 51.486 visitatori per variazione prima di poter esaminare i livelli di significatività statistica.
Inoltre
Ai fini pratici, sapere che l'80% di potenza è lo standard per gli strumenti di test A / B. Per raggiungere un tale livello, è necessario disporre di una dimensione del campione grande, una dimensione dell'effetto elevata o un test di durata più lunga.
Non ci sono numeri magici
Molti post sul blog

Andrew Anderson:
"Non si tratta mai di quante conversioni. Si tratta di disporre di dati sufficienti per convalidare in base a campioni rappresentativi e comportamento rappresentativo.
Cento conversioni sono possibili solo nei casi più remoti e con un delta incredibilmente elevato nel comportamento, ma solo se si verificano altri requisiti come comportamento nel tempo, coerenza e distribuzione normale. Anche allora, ha una probabilità molto alta di un errore di tipo I, falso positivo. "
Vogliamo un campione rappresentativo. Come possiamo ottenerlo? Test per due cicli economici per mitigare i fattori esterni:
- Giorno della settimana. Il tuo traffico giornaliero può variare molto.
- Fonti di traffico. A meno che non si desideri personalizzare l'esperienza per una fonte dedicata.
- Post di blog e programma di pubblicazione di newsletter.
- Visitatori di ritorno. Le persone possono visitare il tuo sito, pensare a un acquisto, quindi tornare 10 giorni dopo per acquistarlo.
- Eventi esterni. Un giorno di paga di metà mese può influire sull'acquisto, ad esempio.
Fare attenzione con campioni di piccole dimensioni. Internet è pieno di casi studio impregnati di merda matematica. La maggior parte degli studi (se mai avessero pubblicato numeri interi) avrebbe rivelato che gli editori giudicavano le variazioni dei test su 100 visitatori o un passaggio da 12 a 22 conversioni.
Dopo aver impostato tutto correttamente, evita di sbirciare (o lasciare sbirciare il capo) ai risultati del test prima che il test finisca. Ciò può comportare la chiamata anticipata di un risultato a causa di "individuare una tendenza" (impossibile). Quello che troverai è che molti risultati dei test regrediscono alla media.
Regressione alla media
Spesso, vedrai che i risultati variano notevolmente nei primi giorni del test. Abbastanza sicuro, tendono a convergere mentre il test continua per le prossime settimane. Ecco un esempio da un sito di e-commerce:

Primo paio di giorni: il blu (variante n. 3) sta vincendo alla grande, come $ 16 per visitatore contro $ 12,50 per Control. Molte persone finirebbero (erroneamente) il test qui.- Dopo 7 giorni: il blu continua a vincere e la differenza relativa è grande.
- Dopo 14 giorni: Orange (# 4) sta vincendo!
- Dopo 21 giorni: Orange continua a vincere!
- Fine: nessuna differenza.
Se avessi chiamato il test in meno di quattro settimane, avresti concluso erroneamente.
C'è un problema correlato: l'effetto novità. La novità delle modifiche (ad es. Pulsante blu più grande) porta maggiore attenzione alla variazione. Con il tempo, l'ascensore scompare perché il cambiamento non è più nuovo.
È una delle tante complessità legate ai test A / B. Abbiamo un sacco di post sul blog dedicati a tali argomenti:
Puoi eseguire più test A / B contemporaneamente?
Volete velocizzare il vostro programma di test ed eseguire altri test, test ad alta velocità. Ma puoi eseguire più di un test A / B contemporaneamente
Alcuni esperti sostengono che non dovresti fare più test contemporaneamente. Alcuni dicono che va bene. Nella maggior parte dei casi, starai bene eseguendo più test simultanei; interazioni estreme sono improbabili.
A meno che tu non stia testando cose veramente importanti (ad esempio, qualcosa che influisce sul tuo modello di business, sul futuro dell'azienda), i vantaggi dei test volume probabilmente supererà il rumore nei dati e occasionalmente falsi positivi.
Se esiste un rischio elevato di interazione tra più test, ridurre il numero di test simultanei e / o lasciare che i test durino più a lungo per una maggiore precisione.
Se vuoi saperne di più, leggi questi post:
Come impostare i test A / B
Una volta ottenuto un elenco prioritario di idee per i test, è tempo di formulare un'ipotesi ed eseguire un esperimento. Un'ipotesi definisce perché credi che si verifichi un problema. Inoltre, una buona ipotesi:
- È testabile. È misurabile, quindi può essere testato.
- Risolve un problema di conversione. Il split test risolve i problemi di conversione.
- Fornisce approfondimenti sul mercato. Con un'ipotesi ben articolata, i risultati del split test ti danno informazioni sui tuoi clienti, sia che il test "vince" o “Perde”.

Craig Sullivan ha un kit di ipotesi per semplificare il processo:
- Perché abbiamo visto (dati / feedback),
- Ci aspettiamo che (il cambiamento) causi (impatto).
- Misureremo questo utilizzando (metrica di dati).
E quello avanzato:
- Perché abbiamo visto (dati qualitativi e quantitativi),
- Ci aspettiamo che (il cambiamento) per (la popolazione) causi (impatto[s]).
- Ci aspettiamo di vedere (metrica dei dati[s] modifica) in un periodo di (X cicli aziendali).
Roba tecnica
Ecco la parte divertente: puoi finalmente pensare a scegliere uno strumento.
Sebbene questa sia la prima cosa a cui molte persone pensano, non è la più importante. La conoscenza strategica e statistica viene prima di tutto.
Detto questo, ci sono alcune differenze da tenere a mente. Una delle principali categorie di strumenti è se si tratta di strumenti di test lato server o lato client.
Gli strumenti lato server eseguono il rendering del codice a livello di server. Inviano una versione casuale della pagina allo spettatore senza alcuna modifica sul browser del visitatore. Gli strumenti lato client inviano la stessa pagina, ma JavaScript nel browser del client modifica l'aspetto dell'originale e la variazione.
Gli strumenti di test lato client includono Optimizely, VWO e Adobe Target. Conductrics ha funzionalità per entrambi e SiteSpect utilizza un metodo proxy lato server.
Cosa significa tutto questo per te? Se desideri risparmiare tempo in anticipo o se il tuo team è piccolo o non ha risorse di sviluppo, gli strumenti lato client possono metterti in funzione più velocemente. Il lato server richiede risorse di sviluppo ma spesso può essere più robusto.
Mentre l'impostazione dei test è leggermente diversa a seconda dello strumento che usi, spesso è semplice come iscriverti al tuo strumento preferito e seguire le loro istruzioni, come mettere uno snippet JavaScript sul tuo sito web.
Oltre a ciò, devi impostare gli obiettivi (per sapere quando è stata effettuata una conversione). Lo strumento di test monitorerà quando ogni variazione converte i visitatori in clienti.

Le competenze che risultano utili durante l'impostazione dei test A / B sono HTML, CSS e JavaScript / JQuery, nonché abilità di progettazione e copywriting per creare variazioni. Alcuni strumenti consentono l'uso di un editor visivo, ma ciò limita la flessibilità e il controllo.
Come analizzare i risultati dei test A / B
Tutto apposto. Hai svolto le tue ricerche, impostato correttamente il test e il test è finalmente pronto. Adesso passiamo all'analisi. Non è semplice come uno sguardo al grafico dal tuo strumento di test.
Una cosa che dovresti sempre fare: analizzare i risultati dei test in Google Analytics. Non migliora solo le tue capacità di analisi; ti consente inoltre di essere più sicuro dei tuoi dati e del processo decisionale.
Lo strumento di test potrebbe registrare dati in modo errato. Se non disponi di un'altra fonte per i tuoi dati di test, non puoi mai essere sicuro di fidarti. Crea più fonti di dati.
Cosa succede se non c'è differenza tra le variazioni? Non andare avanti troppo in fretta. Innanzitutto, realizza due cose:
1. La tua ipotesi potrebbe essere stata corretta, ma l'implementazione era sbagliata.
Supponiamo che la tua ricerca qualitativa affermi che la preoccupazione per la sicurezza è un problema. In quanti modi puoi rafforzare la percezione della sicurezza? Illimitato.
Il nome del gioco è test iterativo, quindi se eri su qualcosa, prova alcune iterazioni.
2. Anche se non ci fosse differenza complessivamente, la variazione potrebbe battere il controllo in un segmento o due.
Se hai un passaggio per i visitatori di ritorno e i visitatori mobili, ma un calo per i nuovi visitatori e utenti desktop, quei segmenti potrebbero annullarsi a vicenda, facendo sembrare che non ci sia "alcuna differenza". Analizza il tuo test su segmenti chiave per indagare su tale possibilità .
Segmentazione dei dati per i test A / B
La chiave per l'apprendimento nei test A / B è la segmentazione. Anche se B potrebbe perdere A nei risultati complessivi, B potrebbe battere A in alcuni segmenti (organico, Facebook, mobile, ecc.).

Ci sono un sacco di segmenti che puoi analizzare. Elenca in modo ottimale le seguenti possibilità:
- Tipo di browser;
- Tipo di fonte;
- Mobile vs. desktop o per dispositivo;
- Visitatori connessi o disconnessi;
- Campagna PPC / SEM;
- Regioni geografiche (città, stato / provincia, paese);
- Visitatori nuovi e di ritorno;
- Acquirenti nuovi vs. ripetuti;
- Utenti esperti vs. visitatori occasionali;
- Uomini contro donne;
- Fascia di età;
- Nuovi contatti rispetto a quelli già inviati;
- Tipi di piano o livelli di programma fedeltà;
- Abbonati attuali, potenziali ed ex;
- Ruoli (se il tuo sito ha, ad esempio, sia un ruolo di acquirente che di venditore).
Per lo meno, supponendo che tu abbia una dimensione del campione adeguata, guarda questi segmenti:
- Desktop vs. tablet / mobile;
- Nuovo vs. ritorno;
- Traffico che arriva sulla pagina rispetto al traffico proveniente da link interni.
Assicurati di avere dimensioni del campione sufficienti all'interno del segmento. Calcolalo in anticipo e fai attenzione se è inferiore a 250–350 conversioni per variazione all'interno di un determinato segmento.
Se il trattamento ha funzionato bene per un segmento specifico, è tempo di prendere in considerazione un approccio personalizzato per tali utenti.
Come archiviare i test A / B passati
I test A / B non riguardano solo sollevamenti, vincite, perdite e test di merda casuale. Come ha affermato Matt Gershoff, l'ottimizzazione riguarda la "raccolta di informazioni per informare le decisioni" e gli apprendimenti dai test A / B statisticamente validi contribuiscono ai maggiori obiettivi di crescita e ottimizzazione.
Le organizzazioni intelligenti archiviano i risultati dei test e pianificano il loro approccio ai test in modo sistematico. Un approccio strutturato all'ottimizzazione produce una maggiore crescita ed è meno spesso limitato dai massimi locali.
Quindi, ecco la parte difficile: non esiste un modo migliore per strutturare la gestione della conoscenza. Alcune aziende usano strumenti sofisticati, costruiti internamente; alcuni usano strumenti di terze parti; e alcuni usano Excel e Trello.
Se aiuta, ecco tre strumenti creati appositamente per la gestione dei progetti di ottimizzazione delle conversioni:
- Iridion;
- Esperimenti efficaci;
- Progetti di hacker di crescita.
È importante comunicare tra dipartimenti e dirigenti. Spesso, i risultati dei test A / B non sono intuitivi per un laico. La visualizzazione aiuta.
Annemarie Klaassen e Ton Wesseling hanno scritto un post fantastico sulla visualizzazione dei risultati dei test A / B. Ecco cosa hanno escogitato:

Statistiche sui test A / B
Le conoscenze statistiche sono utili quando si analizzano i risultati dei test A / B. Ne abbiamo discusso un po 'nella sezione sopra, ma c'è altro da trattare.
Perché hai bisogno di conoscere le statistiche? A Matt Gershoff piace citare il suo professore di matematica al college: "Come puoi fare il formaggio se non sai da dove viene il latte ?!"
Ci sono tre termini che dovresti conoscere prima di immergerci nella nitidezza delle statistiche dei test A / B:
- Significare. Non stiamo misurando tutti tassi di conversione, solo un campione. La media è rappresentativa del tutto.
- Varianza. Qual è la variabilità naturale di una popolazione? Ciò influenza i nostri risultati e il modo in cui li utilizziamo.
- Campionamento. Non possiamo misurare il tasso di conversione reale, quindi selezioniamo un campione che (si spera) rappresentativo.
Che cos'è un valore p?
Molti usano il termine "significato statistico" in modo impreciso. Il significato statistico di per sé non è una regola di arresto, quindi cos'è e perché è importante?
Per cominciare, andiamo oltre i valori di p, che sono anche molto fraintesi. Come recentemente sottolineato FiveThirtyEight, anche gli scienziati non sono in grado di spiegare facilmente i valori p.
Un valore p è la misura dell'evidenza rispetto all'ipotesi nulla (il controllo, in sala prove A / B). Un valore p non dicci la probabilità che B sia migliore di A.
Allo stesso modo, non ci dice la probabilità che commetteremo un errore nella selezione di B su A. Queste sono idee sbagliate comuni.
Il valore p è la probabilità di vedere il risultato attuale o uno più estremo dato che l'ipotesi nulla è vera. Oppure, "Quanto è sorprendente questo risultato?"

Per riassumere, la significatività statistica (o un risultato statisticamente significativo) si ottiene quando un valore p è inferiore al livello di significatività (che di solito è impostato a 0,05).
Il significato per quanto riguarda il test delle ipotesi statistiche è anche il punto in cui si presenta l'intera questione della "coda singola e doppia coda".
Test A / B su una coda contro due code
Test a una coda consentire un effetto in una direzione. I test a due code cercano un effetto in due direzioni: positivo o negativo.
Non c'è bisogno di essere molto agitati per questo. Gershoff di Conductrics lo ha riassunto bene:

Matt Gershoff:
"Se il tuo software di test fa solo un tipo o l'altro, non farlo sudare. È molto semplice convertire un tipo nell'altro (ma è necessario farlo PRIMA di eseguire il test) poiché tutta la matematica è esattamente la stessa in entrambi i test. Tutto ciò che è diverso è il livello di soglia di significatività. Se il tuo software utilizza un test a una coda, dividi semplicemente il valore p associato al livello di confidenza che stai cercando di eseguire il test per due. Quindi, se vuoi che il tuo test a due code sia al livello di confidenza del 95%, allora in realtà inseriresti un livello di confidenza del 97,5%, o se al 99%, allora devi inserire il 99,5%. Puoi quindi leggere il test come se fosse a due code. "
Intervalli di confidenza e margine di errore
Il tasso di conversione non indica semplicemente X%. Dice qualcosa come X% (+/- Y). Quel secondo numero è l'intervallo di confidenza ed è della massima importanza per comprendere i risultati del test.
Nei test A / B, utilizziamo intervalli di confidenza per mitigare il rischio di errori di campionamento. In tal senso, stiamo gestendo il rischio associato all'implementazione di una nuova variante.
Quindi, se il tuo strumento dice qualcosa del tipo "Siamo sicuri al 95% che il tasso di conversione è X% +/- Y%", allora devi considerare +/- Y% come margine di errore.
La sicurezza dei risultati dipende in gran parte dalla portata del margine di errore. Se i due intervalli di conversione si sovrappongono, è necessario continuare i test per ottenere un risultato valido.
Matt Gershoff ha fornito una grande illustrazione di come funziona il margine di errore:



Matt Gershoff:
"Supponi che il tuo amico verrà a trovarti da Round Rock e prenderà TX-1 alle 17:00. Vuole sapere quanto tempo dovrebbe impiegarla. Dici che ho una certezza del 95% che ci vorranno circa 60 minuti più o meno 20 minuti. Quindi il tuo margine di errore è di 20 minuti, o 33%.
Se arriverà alle 11 di mattina, potresti dire "Ci vorranno 40 minuti, più o meno 10 minuti", quindi il margine di errore è di 10 minuti, o del 25%. Quindi, mentre entrambi sono al livello di confidenza del 95%, il margine di errore è diverso. "
Minacce di validità esterne
Esiste una sfida con l'esecuzione dei test A / B: i dati non sono fissi.


A stationary time series is one whose statistical properties (mean, variance, autocorrelation, etc.) are constant over time. For many reasons, website data is non-stationary, which means we can’t make the same assumptions as with stationary data. Here are a few reasons that data might fluctuate:
- Season;
- Day of the week;
- Holidays;
- Positive or negative press mentions;
- Other marketing campaigns;
- PPC/SEM;
- SEO;
- Word-of-mouth.
Others include sample pollution, the flicker effect, revenue tracking errors, selection bias, and more. (Read here.) These are things to keep in mind when planning and analyzing your A/B tests.
Bayesian or frequentist Stats
Bayesian or Frequentist A/B testing is another hot topic. Many popular tools have rebuilt their stats engines to feature a Bayesian methodology.
Here’s the difference (very much simplified): In the Bayesian view, a probability is assigned to a hypothesis. In the Frequentist view, a hypothesis is tested without being assigned a probability.
Rob Balon, who carries a PhD in statistics and market research, says the debate is mostly esoteric tail wagging from the ivory tower. “In truth,” he says, “most analysts out of the ivory tower don’t care that much, if at all, about Bayesian vs. Frequentist.”
Don’t get me wrong, there are practical business implications to each methodology. But if you’re new to A/B testing, there are much more important things to worry about.
Littered throughout this guide are tons of links to external resources: articles, tools, books, etc. To make it convenient for you, here are some of the best (divided by categories).
A/B testing tools
There are a lot of tools for online experimentation. Here’s a list of 53 conversion optimization tools, all reviewed by experts. Some of the most popular A/B testing tools include:
A/B testing calculators
A/B testing statistics resources
A/B testing/CRO strategy resources
Conclusione
A/B testing is an invaluable resource to anyone making decisions in an online environment. With a little bit of knowledge and a lot of diligence, you can mitigate many of the risks that most beginning optimizers face.
If you really dig into the information here, you’ll be ahead of 90% of people running tests. If you believe in the power of A/B testing for continued revenue growth, that’s a fantastic place to be.
Knowledge is a limiting factor that only experience and iterative learning can transcend. So get testing!