Anni fa, quando ho iniziato a test di divisione, pensavo che ogni test valesse la pena correre. Non importava se cambiasse un colore pulsante o un titolo: volevo eseguire quel test.
La mia convinzione entusiasta, ma fuorviata, era che dovevo semplicemente trovare gli aspetti per ottimizzare, impostare lo strumento e avviare il test. Dopo ciò, pensai, era solo questione di aspettare il famigerato significato statistico del 95%.
Mi sbagliavo.
Dopo aver implementato variazioni "statisticamente significative", non ho riscontrato alcun aumento delle vendite perché non c'era un vero ascensore – "era immaginario". Molti di questi test erano destinati a fallire all'inizio. Stavo commettendo errori statistici comuni, come non testare per un ciclo economico completo o trascurare di prendere in considerazione la dimensione dell'effetto.
Ho anche omesso di considerare un'altra possibilità: che un test "sottodimensionato" potrebbe farmi perdere le modifiche voluto generare un "vero sollevamento".
Comprendere il potere statistico, o la "sensibilità" di un test, è una parte essenziale della pianificazione pre-test e ti aiuterà a implementare più modifiche generatrici di entrate per il tuo sito.
Cos'è il potere statistico?
Potere statistico è la probabilità di osservare un risultato statisticamente significativo al livello alfa (α) se è presente un effetto reale di una certa grandezza. È la tua capacità di rilevare una differenza tra le varianti del test quando esiste effettivamente una differenza.
Il potere statistico è il coronamento del duro lavoro svolto nella ricerca per la conversione e il trattamento (i) prioritario rispetto a un controllo. Questo è il motivo per cui il potere è così importante – aumenta la tua capacità di trovare e misurare le differenze quando sono effettivamente lì.
Il potere statistico (1 – β) mantiene una relazione inversa con errori di Tipo II (β). È anche il modo di controllare la possibilità di falsi negativi. Vogliamo ridurre il rischio di errori di Tipo I a un livello accettabile, pur mantenendo una potenza sufficiente per rilevare i miglioramenti se i trattamenti di prova sono effettivamente migliori.
Trovare il giusto equilibrio, come dettagliato in seguito, è sia arte che scienza. Se una delle tue varianti è migliore, un test correttamente alimentato rende probabile che il miglioramento venga rilevato. Se il test è sottodimensionato, si ha un rischio inaccettabilmente elevato di non riuscire a rifiutare un falso nullo.
Prima di entrare nei componenti del potere statistico, esaminiamo gli errori che stiamo cercando di spiegare.
Errori di Tipo I e Tipo II
Errori di tipo I
Un errore di tipo I, o falso positivo, rifiuta un'ipotesi nulla che sia effettivamente vera. Il tuo test misura una differenza tra le variazioni che, in realtà, non esistono. La differenza osservata – che il trattamento di prova ha sovraperformato il controllo – è illusoria e dovuta a caso o errore.
La probabilità di un errore di tipo I, indicato dall'alpha greco (α), è il livello di significatività del test A / B. Se esegui il test con un livello di confidenza del 95%, significa che hai una probabilità del 5% di errore di tipo I (1.0 – 0.95 = 0.05).
Se il 5% è troppo alto, puoi ridurre la probabilità di un falso positivo aumentando il livello di confidenza dal 95% al 99% o anche più alto. Questo, a sua volta, farà cadere il tuo alfa dal 5% all'1%. Ma quella riduzione della probabilità di un falso positivo ha un costo.
Aumentando il livello di confidenza, aumenta il rischio di un falso negativo (errore di tipo II). Ciò è dovuto alla relazione inversa tra alfa e beta-abbassamento uno aumenta l'altro.
Abbassando l'alfa (ad esempio dal 5% all'1%) si riduce la potenza statistica del test. Quando si abbassa l'alfa, la regione critica diventa più piccola e una regione critica più piccola significa una minore probabilità di rifiutare il valore nullo, quindi un livello di potenza inferiore. Al contrario, se hai bisogno di più potenza, un'opzione è di aumentare il tuo alfa (ad esempio dal 5% al 10%).
Errori di tipo II
Un errore di tipo II o falso negativo, è un fallimento nel rifiutare un'ipotesi nulla che sia effettivamente falsa. Un errore di tipo II si verifica quando il test non trova un miglioramento significativo nella variazione che, in realtà, esiste.
Beta (β) è la probabilità di fare un errore di tipo II e ha una relazione inversa con potenza statistica (1 – β). Se il 20% è il rischio di commettere un errore di Tipo II (β), allora il tuo livello di potenza è 80% (1,0 – 0,2 = 0,8). È possibile ridurre il rischio di un falso negativo al 10% o al 5%, rispettivamente per livelli di potenza del 90% o del 95%.
Gli errori di Tipo II sono controllati dal livello di potenza scelto: maggiore è il livello di potenza, minore è la probabilità di un errore di Tipo II. Poiché alfa e beta hanno una relazione inversa, l'esecuzione di alpha estremamente basso (ad esempio 0,001%), se tutto il resto è uguale, aumenterà notevolmente il rischio di un errore di tipo II.
Il potere statistico è un atto di bilanciamento con compromessi per ogni test. Come dice Paul D. Ellis, "Un progetto di ricerca ben ponderato è quello che valuta il rischio relativo di fare ogni tipo di errore, quindi raggiunge un equilibrio adeguato tra loro".
Quando si tratta di potere statistico, quali variabili influenzano tale equilibrio? Diamo un'occhiata.
Le variabili che influenzano il potere statistico
Quando si considera ogni variabile che influenza il potere statistico, ricordare: L'obiettivo principale è controllare i tassi di errore. Ci sono quattro leve che puoi tirare:
- Misura di prova
- Effetto minimo di interesse (MEI, o effetto minimo rilevabile)
- Livello di significatività (α)
- Livello di potenza desiderato (tasso di errore di Tipo II implicito)
1. Dimensione del campione
Il gorilla da 800 libbre di potenza statistica è la dimensione del campione. Puoi ottenere molte cose giuste avendo una dimensione del campione abbastanza grande. Il trucco consiste nel calcolare una dimensione del campione che può alimentare adeguatamente il test, ma non così grande da rendere il test più lungo del necessario. (Un test più lungo costa di più e rallenta il tasso di test).
Hai bisogno di abbastanza visitatori per ciascuno variazione così come a ciascuno segmento tu vuoi analizzare. La pianificazione pre-test per la dimensione del campione aiuta ad evitare test sottodimensionati; altrimenti, potresti non rendertene conto di eseguire troppe varianti o segmenti finché non è troppo tardi, lasciandoti con gruppi di post-test con un basso numero di visitatori.
Aspettatevi un risultato statisticamente significativo entro un ragionevole lasso di tempo, di solito almeno una settimana o un ciclo economico. Una linea guida generale è di eseguire i test per un minimo di due settimane ma non più di quattro per evitare problemi dovuti all'inquinamento del campione e alla cancellazione dei cookie.
Stabilire una dimensione minima del campione e un orizzonte temporale predefinito evita l'errore comune di eseguire semplicemente un test fino a quando non genera una differenza statisticamente significativa, quindi fermarla (sbirciare).
2. Effetto minimo di interesse (MEI)
L'effetto minimo di interesse (MEI) è la grandezza (o la dimensione) della differenza nei risultati che si desidera rilevare.
Le differenze più piccole sono più difficili da rilevare e richiedono una dimensione del campione più ampia per mantenere la stessa potenza; effetti di maggiore entità possono essere rilevati in modo affidabile con campioni di dimensioni più piccole. Tuttavia, come osserva Georgi Georgiev, quei grandi "miglioramenti" derivanti da piccole dimensioni del campione potrebbero non essere affidabili:
Il problema è che, di solito, non c'era una regola di arresto appropriata né una dimensione fissa del campione, quindi i valori p nominali e l'intervallo di confidenza (CI) riportati non hanno senso. Si può dire che i risultati sono stati "selezionati con cura" in un certo senso.
Se ci fosse una regola di arresto corretta o una dimensione fissa del campione, è probabile che un miglioramento osservato del 500% da una dimensione campionaria molto piccola abbia un IC del 95% da + 5% a + 995%: non molto informativo.
Un ottimo modo per visualizzare la relazione tra la potenza e la dimensione dell'effetto è questa illustrazione di Georgiev, in cui egli paragona il potere a una rete da pesca:
3. Importanza statistica
Come spiegò Georgiev:
Si dice che un risultato del test osservato sia statisticamente significativo se è molto improbabile che si possa osservare tale risultato assumendo che l'ipotesi nulla sia vera.
Questo ci permette allora di ragionare nell'altro modo e dire che abbiamo prove contro l'ipotesi nulla nella misura in cui un risultato estremo o uno più estremo non verrebbe osservato, se il valore nullo sia vero (il valore p).
Questa definizione viene spesso ridotta a un'interpretazione più semplice: se il test di divisione per due pagine di destinazione ha una confidenza del 95% a favore della variazione, c'è solo una probabilità del 5% che il miglioramento osservato sia dovuto al caso o una probabilità del 95% che la differenza è non a causa di casualità.
"Molti, assumendo il significato rigoroso di" il miglioramento osservato derivante da un caso casuale ", avrebbero disprezzato tale affermazione", ha sostenuto Georgiev. "Abbiamo bisogno di ricordare che ciò che ci permette di stimare queste probabilità è l'ipotesi che il nulla sia vero."
Il cinque percento è un livello iniziale comune di significatività nei test online e, come accennato in precedenza, è la probabilità di fare un errore di tipo I. L'utilizzo di un alfa al 5% per il test significa che sei disposto ad accettare una probabilità del 5% di aver rifiutato in modo errato l'ipotesi nulla.
Se si riduce l'alfa dal 5% all'1%, si aumenta contemporaneamente la probabilità di errore di tipo II, assumendo che tutto il resto sia uguale. Aumentando la probabilità di un errore di Tipo II si riduce la potenza del test.
4. Livello di potenza desiderato
Con una potenza dell'80%, hai una probabilità del 20% di non essere in grado di rilevare una differenza effettiva per una data grandezza di interesse. Se il 20% è troppo rischioso, puoi ridurre questa probabilità al 10%, al 5% o persino all'1%, il che aumenterebbe la tua potenza statistica al 90%, al 95% o al 99%, rispettivamente.
Prima di pensare che risolverai tutti i tuoi problemi eseguendo test al 95% o al 99% di potenza, capiscilo ogni aumento di potenza richiede un corrispondente aumento della dimensione del campione e il tempo necessario per eseguire il test (tempo che potresti perdere eseguendo un test perdente e perdendo vendite solo per un punto percentuale in più o due di probabilità statistica).
Quindi quanto potere hai veramente bisogno? Un punto di partenza comune per il rischio accettabile di falsi negativi nell'ottimizzazione della conversione è del 20%, che restituisce un livello di potenza dell'80%.
Non c'è nulla di definitivo su un livello di potenza dell'80%, ma lo statistico Jacob Cohen suggerisce che l'80% rappresenta un ragionevole equilibrio tra rischio alfa e beta. Per dirla in altro modo, secondo Ellis, "gli studi non dovrebbero avere più del 20% di probabilità di fare un errore di tipo II".
In definitiva, è una questione di:
- Quanto rischio sei disposto a prendere quando si tratta mancante un vero miglioramento;
- La dimensione minima del campione necessaria per ogni variazione per raggiungere la potenza desiderata.
Come calcolare la potenza statistica per il test
Utilizzando un calcolatore di dimensioni del campione o una potenza G *, è possibile collegare i valori per scoprire cosa è necessario per eseguire un test adeguatamente alimentato. Se conosci tre degli input, puoi calcolare il quarto.
In questo caso, usando G * Power, abbiamo concluso che abbiamo bisogno di una dimensione del campione di 681 visitatori ad ogni variazione. Questo è stato calcolato utilizzando i nostri input di potenza dell'80% e un alfa al 5% (valore del 95%). Sapevamo che il nostro controllo aveva un tasso di conversione del 14% e ci aspettavamo che la nostra variante raggiungesse il 19%:
Allo stesso modo, se conoscessimo la dimensione del campione per ogni variazione, l'alfa e il livello di potenza desiderato (ad esempio, 80%), potremmo trovare il MEI necessario per raggiungere tale potenza, in questo caso il 19%:
Cosa succede se non è possibile aumentare la dimensione del campione?
Arriverà un giorno in cui avrai bisogno di più energia, ma aumentare la dimensione del campione non è un'opzione. Ciò potrebbe essere dovuto a un piccolo segmento all'interno di un test in corso o a basso traffico verso una pagina.
Supponiamo che tu inserisca i tuoi parametri in un calcolatore di test A / B e richieda una dimensione del campione di oltre 8.000:
Se non puoi raggiungere quel minimo – o ci vorrebbero mesi per farlo – un'opzione è aumentare il MEI. In questo esempio, l'aumento del MEI dal 10% al 25% riduce la dimensione del campione a 1.356 per variante:
Ma quanto spesso riuscirai a colpire un MEI al 25%? E quanto valore ti mancherà guardando solo per un impatto enorme? Un'opzione migliore è di solito di abbassare il livello di confidenza al 90%, finché sei a tuo agio con una probabilità del 10% di errore di Tipo I:
Allora, da dove inizi? Georgiev ha ammesso che, troppo spesso, gli analisti del CRO "iniziano con la dimensione del campione (il test deve essere fatto da
Trovare il giusto equilibrio:
Conclusione
Il potere statistico ti aiuta a controllare gli errori, ti dà maggiore sicurezza nei risultati dei test e migliora notevolmente la possibilità di rilevare effetti praticamente significativi.
Approfitta della potenza statistica seguendo questi suggerimenti:
- Esegui i tuoi test per due o quattro settimane.
- Utilizzare un calcolatore di test (o G * Power) per garantire test correttamente alimentati.
- Soddisfare i requisiti minimi di dimensione del campione.
- Se necessario, prova per le modifiche più grandi in vigore.
- Utilizzare la significatività statistica solo dopo aver soddisfatto i requisiti minimi di dimensione del campione.
- Pianifica una potenza adeguata per tutte le varianti e i segmenti post-test.