Tests A/B: Tomar decisiones con datos

🎯 Pregunta central

¿Cómo verificar científicamente el efecto de los cambios en un producto? Es posible que hayas vivido esta situación: el equipo dedica un mes a desarrollar una nueva función que, tras su lanzamiento, hace que las métricas se disparen. Todos celebran, pero tres semanas después los datos caen misteriosamente a sus niveles originales. ¿Fue porque la nueva función realmente funcionó, o porque coincidió con una temporada de alto tráfico como las fiestas? Los tests A/B resuelven precisamente cómo eliminar el ruido de las interferencias externas y dejar que los datos revelen la verdad.

0. Panorama general: Un arma científica contra las decisiones "a ciegas"

Antes de profundizar en los aspectos técnicos, pensemos en cómo los seres humanos toman decisiones.

Te enfrentas a dos diseños de color para un botón: uno es un azul sobrio, el otro es un rojo llamativo. Normalmente, quien decide se basa en su propia experiencia, intuición o incluso la preferencia del líder con mayor salario (en la industria se le llama HiPPO — Highest Paid Person's Opinion, la opinión de la persona mejor pagada).

Pero la retroalimentación real de los usuarios suele superar con creces nuestra imaginación. Quizás el rojo sea demasiado agresivo y reduzca la tasa de conversión, o tal vez el azul no sea lo suficientemente llamativo... ¿Cómo podemos estar seguros de que un cambio concreto es realmente mejor?

La respuesta proviene de un método científico clásico, el mismo que utiliza la medicina moderna para validar nuevos fármacos: el experimento controlado.

💡 La esencia del test A/B

Test A/B = Comparación + Observación Es como el "doble ciego" en la investigación médica:

Grupo de control (Grupo A): toma una pastilla de almidón que parece medicamento (ve la versión antigua de la página).
Grupo experimental (Grupo B): toma el nuevo fármaco en desarrollo (ve la versión nueva de la página). Solo cuando la tasa de curación (tasa de conversión) del grupo experimental es extremadamente estable y significativamente superior a la del grupo de control, podemos declarar que el nuevo fármaco (el nuevo cambio) es realmente efectivo.

1. Asignación de tráfico: Dividir universos paralelos

La primera regla de oro de los tests A/B es: simultáneo, aleatorio y aislado.

No puedes decir: "la primera quincena todos los usuarios ven el botón azul, la segunda quincena todos ven el botón rojo". Porque el lapso de tiempo introduce innumerables variables: es imposible saber si el aumento de la tasa de conversión en la segunda quincena se debió al botón rojo o a que coincidió con la temporada de compras de fin de año.

Lo que hacemos es crear "universos paralelos" en el mismo instante. Cada usuario que entra al sitio web recibe, a nivel del sistema, el lanzamiento de una moneda digital que determina si se le asigna al universo A o al universo B.

Puedes observar intuitivamente cómo el sistema distribuye el tráfico en la siguiente demostración:

流量分配可视化

观察用户如何被随机分配到对照组（A组）和实验组（B组）

A组 (对照组)

50%

B组 (实验组)

50%

总用户数1000

A组用户500

B组用户500

50/50分配能最快检测出差异，确保两组样本量足够大以获得统计显著性

1.1 ¿Por qué es tan importante la asignación aleatoria?

Solo una "aleatoriedad" al cien por cien puede eliminar al máximo las diferencias causadas por cualquier otra característica. Si se realiza una división aleatoria perfecta con un tamaño de muestra suficientemente grande, la proporción de usuarios jóvenes, el nivel de ingresos y la distribución geográfica del grupo A y del grupo B serán sorprendentemente similares.

En ese momento, si el rendimiento de los datos de ambos grupos difiere, se habrán descartado todas las demás interferencias y excusas. La única diferencia posible es que cambiaste el botón a rojo.

2. Muestra y pruebas: La lógica matemática que vence a las ilusiones

Bien, ya tenemos los grupos. ¿Basta con probar con 10 usuarios y ver los resultados? Aquí entra en juego la ley matemática más implacable de los tests A/B: la Ley de los Grandes Números y el tamaño de muestra (Sample Size).

Imagina que lanzas una moneda 10 veces y obtienes 7 caras y 3 cruces. ¿Eso demuestra que la moneda está trucada? Obviamente no, porque la base es demasiado pequeña; 7:3 es pura fluctuación, suerte. Pero si la lanzas 100.000 veces y obtienes 70.000 caras, entonces puedes afirmar rotundamente: la moneda está sesgada.

De igual manera, si solo se prueba con 100 personas, un usuario más o menos que haga clic provoca una fluctuación del 1%. Por eso necesitamos calcular mediante fórmula cuánto tráfico debemos acumular antes de que el experimento comience.

样本量计算器

计算达到统计显著性所需的最小样本量

基准转化率

当前版本的转化率

最小检测提升

希望检测到的最小相对提升（相对值）

显著性水平 (α)犯第一类错误的概率

统计功效 (1-β)检测到真实效应的概率

提升目标越小，所需样本量越大。5%的提升比20%的提升需要更多样本

2.1 Los dos guardianes de la estadística

Una vez que se alcanzan estas condiciones de tráfico, la estadística sitúa a dos guardianes en nuestro camino hacia la verdad:

Potencia estadística (Power, generalmente se requiere un 80%): representa la probabilidad de que, si tu nuevo cambio es realmente efectivo, puedas detectar ese efecto en lugar de descartarlo como ruido. (Evita los falsos negativos: decir "no funciona" cuando sí funciona.)
Nivel de significancia (P-Value, generalmente se requiere menor a 0,05): es lo que comúnmente se conoce como "P<0,05". Significa: si la diferencia entre ambos grupos fuera pura casualidad, ¿esa probabilidad sería inferior al 5%? Si el papel de la suerte ni siquiera alcanza el 5%, reconocemos que es estadísticamente significativo (Significant) y que el cambio realmente ha tenido un impacto notable. (Evita los falsos positivos: decir "funciona" cuando solo fue suerte.)

3. Enfrentamiento de resultados: El veredicto de la verdad

Tras recopilar datos suficientes, necesitamos evaluarlos con precisión a través del siguiente modelo de embudo profesional. Comparar los resultados no es una simple suma o resta, sino que implica intervalos de confianza y cálculos de distribución normal:

A/B组结果对比

比较两组的转化率和统计显著性

A组转化率（基准）%

B组转化率%

每组样本量

A组（对照组）

转化率5%

转化数500

样本量10000

B组（实验组）

转化率6%

转化数600

样本量10000

相对提升+20.00%

Z值3.102

P值0.00192

统计显著性显著

95%置信区间

0.37%← 真实差异 →1.63%

我们有95%的信心认为，真实差异在这个区间内

P值 < 0.05 表示结果统计显著，说明差异不太可能是随机产生的

Cuando la página muestra un claro "Significativo ✅", significa que podemos anunciar con orgullo a toda la empresa: dejemos de lado nuestros debates subjetivos e infantiles, ¡despleguemos inmediatamente la versión B para todos los usuarios! Todo está respaldado por principios matemáticos sólidos.

4. Trampas oscuras: Errores comunes en el análisis

Aunque el test A/B en sí es una manifestación de racionalidad y ciencia, quienes lo ejecutan están profundamente influenciados por las debilidades humanas. Las personas suelen ver solo lo que quieren ver, lo que puede distorsionar todo el test y provocar consecuencias indeseables:

A/B测试常见误区

过早停止实验

看到结果"显著"就立即停止实验，实际上只是随机波动

示例：运行2天后发现B组领先，立即宣布胜利。但继续运行一周后，差异消失。

解决方案：预先计算所需样本量，运行完整周期（至少2周）后再做决策

频繁窥探结果

每天查看数据，一旦"显著"就停止，这会大幅增加假阳性率

示例：每天检查p值，看到<0.05就停止。这种做法会让假阳性率从5%飙升到30%+。

解决方案：使用序贯检验方法，或预先设定唯一的检查点

辛普森悖论

分组看B组更差，但合并后B组反而更好（或相反）

示例：移动端转化率B>A，桌面端也是B>A，但合并后却A>B。原因：流量分配不均。

解决方案：按流量来源、设备、用户群体等维度分别分析，验证随机化是否正确

P值操纵（P-hacking）

通过尝试不同指标、不同子群体，直到找到"显著"结果

示例：主指标不显著，就按年龄、地区、设备细分，发现某个子群显著就宣称成功。

解决方案：预先注册假设和指标，只分析预先设定的指标

新奇效应

用户因好奇点击新功能，导致短期数据虚高

示例：新按钮上线首周点击率提升30%，但三周后回落到原水平甚至更低。

解决方案：运行足够长的时间（至少2-4周），让新奇效应消退

样本量不足

样本量太小，即使有真实差异也检测不出来

示例：预期提升5%，但只运行了1000样本，结果"不显著"就放弃，实际上需要30000样本。

解决方案：实验前计算所需样本量，确保统计功效≥80%

4.1 Cuidado con el "efecto novedad"

Cuando algo aparece por primera vez, los usuarios pueden hacer clic en ese nuevo botón que parece desordenado por pura curiosidad y novedad, lo que hará que tu tasa de conversión se dispare como un cohete en los primeros tres días.

Muchos gerentes de producto detendrán el experimento al tercer día con datos perfectos y publicarán un informe de victoria. Pero si esperas pacientemente dos semanas, verás que, una vez que pasa la novedad, los datos caen por debajo de la línea base de la versión antigua. Por eso la duración del experimento es crucial: nunca te dejes cegar por un pico temporal artificial.

5. Conclusión: Cultivar el coraje de someterse a los datos

En resumen, pasar de las "conjeturas intuitivas" a los "tests A/B" es una enorme transformación mental para cualquier equipo.

Plantear una hipótesis cautelosa: basada en una observación rigurosa de los usuarios, establecer una hipótesis cuantificable.
Dividir el mundo en paralelo: dividir el tráfico de forma puramente aleatoria para eliminar el ruido externo.
Aceptar el bautismo de la muestra: esperar a que la Ley de los Grandes Números surta efecto, con suficiente tiempo y muestras para reducir las fluctuaciones.
Realizar el veredicto matemático: dejar que el valor P juzgue la calidad de la solución, sometiéndose estrictamente a los hechos de la significancia.

Como creadores de software, la mayor sabiduría es aprender el coraje de someterse a los hechos. Ya no necesitamos pasar horas en la sala de reuniones discutiendo acaloradamente sobre el azul y el rojo; solo necesitamos esperar dos semanas, y la tasa de clics nos demostrará cuál es la verdadera opción preferida por los usuarios.

Tests A/B: Tomar decisiones con datos ​

0. Panorama general: Un arma científica contra las decisiones "a ciegas" ​

1. Asignación de tráfico: Dividir universos paralelos ​

流量分配可视化

1.1 ¿Por qué es tan importante la asignación aleatoria? ​

2. Muestra y pruebas: La lógica matemática que vence a las ilusiones ​