How to Read Your A/B Test Results
This calculator uses a two-tailed Z-test for proportions — the industry standard for comparing conversion rates in marketing split tests. Unlike a one-tailed test, the two-tailed approach detects both positive and negative effects, protecting you from implementing variants that accidentally hurt performance.
Understanding the Key Metrics
- Conversion Rate (CVR): The percentage of visitors who completed the desired action. CVR = Conversions ÷ Visitors × 100.
- Relative Lift: How much better (or worse) the variant performs compared to the control, expressed as a percentage. A +12% relative lift on a 2% baseline CVR means the variant CVR is 2.24%.
- Z-Score: Measures how many standard deviations the observed difference is from zero (no difference). A z-score above the critical threshold confirms the difference is not random.
- P-Value: The probability that the observed difference occurred by chance. At 95% confidence, you need p-value ≤ 0.05. At 99%, you need p-value ≤ 0.01.
- Statistical Significance: Reached when p-value ≤ (1 - confidence level). At 95% confidence: p-value must be ≤ 0.05.
Common A/B Testing Mistakes to Avoid
- Peeking bias: Checking results daily and stopping the test as soon as significance is reached inflates the false positive rate. Decide your required sample size before starting and commit to it.
- Multiple testing: Running many variants simultaneously (A vs B vs C vs D) without adjusting the confidence threshold inflates the probability of finding a false winner. Use Bonferroni correction or limit to 2 variants at a time.
- Low traffic tests: Testing on very low traffic sites produces unreliable results. A 3% vs 4% CVR difference requires roughly 10,000 visitors per variant to reach 95% confidence.
- Ignoring practical significance: A variant that is statistically significant but only 0.1% better in absolute CVR may not be worth implementing if it requires months of development. Always consider the business impact alongside statistical significance.
Cómo Interpretar los Resultados de Tu Prueba A/B
Esta calculadora utiliza un Z-test de dos colas para proporciones — el estándar de la industria para comparar tasas de conversión en pruebas divididas de marketing. A diferencia de una prueba de una cola, el enfoque de dos colas detecta tanto efectos positivos como negativos, protegiéndote de implementar variantes que accidentalmente perjudiquen el rendimiento.
Comprendiendo las Métricas Clave
- Tasa de Conversión (CVR): El porcentaje de visitantes que completaron la acción deseada. CVR = Conversiones ÷ Visitantes × 100.
- Lift Relativo: Cuánto mejor (o peor) rinde la variante en comparación con el control, expresado como porcentaje. Un lift relativo de +12% sobre un CVR base del 2% significa que el CVR de la variante es 2.24%.
- Z-Score: Mide cuántas desviaciones estándar está la diferencia observada de cero (sin diferencia). Un z-score por encima del umbral crítico confirma que la diferencia no es aleatoria.
- P-Valor: La probabilidad de que la diferencia observada haya ocurrido por azar. Con un 95% de confianza, necesitas un p-valor ≤ 0.05. Con el 99%, necesitas p-valor ≤ 0.01.
- Significancia Estadística: Se alcanza cuando el p-valor ≤ (1 - nivel de confianza). Con 95% de confianza: el p-valor debe ser ≤ 0.05.
Errores Comunes en Pruebas A/B a Evitar
- Sesgo de espiar (Peeking bias): Revisar los resultados diariamente y detener la prueba en cuanto se alcanza la significancia infla la tasa de falsos positivos. Define el tamaño de muestra requerido antes de comenzar y comprométete con él.
- Pruebas múltiples: Ejecutar muchas variantes simultáneamente (A vs B vs C vs D) sin ajustar el umbral de confianza infla la probabilidad de encontrar un ganador falso. Usa la corrección de Bonferroni o limita a 2 variantes a la vez.
- Pruebas con poco tráfico: Las pruebas en sitios con muy poco tráfico producen resultados poco confiables. Una diferencia de CVR del 3% vs 4% requiere aproximadamente 10,000 visitantes por variante para alcanzar el 95% de confianza.
- Ignorar la significancia práctica: Una variante estadísticamente significativa pero solo 0.1% mejor en CVR absoluto puede no valer la pena implementar si requiere meses de desarrollo. Considera siempre el impacto empresarial junto con la significancia estadística.
Frequently Asked Questions
What does 'statistically significant' mean?¿Qué significa 'estadísticamente significativo'? ▼
Statistical significance means the observed difference in conversion rates is unlikely to have occurred by random chance. At 95% confidence, there is only a 5% probability the difference was due to chance — the industry standard before implementing a variant as the winner.La significancia estadística significa que la diferencia observada en las tasas de conversión es poco probable que haya ocurrido por azar. Con el 95% de confianza, solo hay un 5% de probabilidad de que la diferencia sea por azar — el estándar de la industria antes de implementar una variante como ganadora.
How many visitors do I need for a valid A/B test?¿Cuántos visitantes necesito para una prueba A/B válida? ▼
A minimum of 1,000 visitors per variant is a rule of thumb, but the actual number depends on your baseline CVR and minimum detectable effect. Low baseline CVR and small expected lifts require much larger sample sizes.Como regla general, un mínimo de 1,000 visitantes por variante, pero el número real depende de tu CVR base y el efecto mínimo detectable. Un CVR base bajo y lifts esperados pequeños requieren muestras mucho mayores.
What's the difference between 90%, 95%, and 99% confidence?¿Cuál es la diferencia entre 90%, 95% y 99% de confianza? ▼
90% = 10% false positive rate. 95% = 5% (industry standard). 99% = 1% (high-stakes changes). Higher confidence requires more traffic to reach the same conclusion.90% = tasa de falsos positivos del 10%. 95% = 5% (estándar de la industria). 99% = 1% (cambios de alto impacto). Mayor confianza requiere más tráfico para llegar a la misma conclusión.
What if my test is NOT statistically significant?¿Qué hago si mi prueba NO es estadísticamente significativa? ▼
Do NOT declare a winner. Continue running until you reach your required confidence level or planned sample size. Stopping early based on raw CVR differences is "peeking bias" and inflates false positives.NO declares un ganador. Continúa ejecutando hasta alcanzar el nivel de confianza requerido o el tamaño de muestra planificado. Detener anticipadamente basándose en diferencias brutas de CVR es "peeking bias" e infla los falsos positivos.
Is this a one-tailed or two-tailed test?¿Es esta una prueba de una o dos colas? ▼
Two-tailed — the safer default. It detects whether the variant is better OR worse, protecting you from implementing variants that accidentally hurt performance.De dos colas — la opción más segura por defecto. Detecta si la variante es mejor O peor, protegiéndote de implementar variantes que accidentalmente perjudiquen el rendimiento.