Pruebas A/B y significancia estadística

Jazmie Jamaludin

Toda empresa que comercializa en línea eventualmente llega a un punto en que la opinión ya no es suficiente. Alguien quiere el titular en verde, otro lo quiere en azul, y la única respuesta honesta es que nadie sabe cuál venderá más hasta que se pruebe. Las pruebas A/B son la disciplina que reemplaza esa discusión con evidencia. Es una idea simple: mostrar una versión de algo a la mitad de tus visitantes, una versión diferente a la otra mitad, y medir cuál funciona mejor. La complicación, y la razón por la que tantas pruebas engañan a quienes las ejecutan, es que medir "mejor" de manera confiable es más difícil de lo que parece.

Esta guía explica cómo funcionan las pruebas A/B en términos prácticos, qué significa realmente la significancia estadística y cómo evitar las trampas que hacen que los dueños de negocios actúen en base a resultados que no son reales. No necesitas tener conocimientos de matemáticas para seguirla. Necesitas una mente clara, voluntad para esperar y una sana desconfianza ante cualquier resultado que llegue sospechosamente rápido. Al final, podrás leer un resultado de prueba y juzgar si merece tu confianza.

Qué hace realmente una prueba A/B

Una prueba A/B compara dos versiones de una misma cosa con un objetivo. La versión original generalmente se llama control, y la nueva versión se llama variante. Divides tu tráfico entrante de forma aleatoria para que cada visitante vea una versión y solo una versión. Luego, cuentas cuántas personas en cada grupo completan la acción que te interesa, ya sea una compra, un registro, un clic o un envío de formulario. La versión con la tasa de finalización más alta parece ser la ganadora.

La palabra clave es "parece". Dos grupos de personas reales casi nunca se comportarán de manera idéntica, incluso cuando se les muestre la misma página exacta. Si divides tu audiencia por la mitad y les muestras a ambas mitades el diseño idéntico, una mitad seguiría convirtiendo a una tasa ligeramente diferente que la otra, puramente por casualidad. Este es el problema central que las pruebas A/B tienen que resolver: ¿cómo se distingue una mejora real de una variación aleatoria ordinaria que parece una?

95%

Un umbral de confianza ampliamente utilizado significa que aceptas aproximadamente una probabilidad de 1 entre 20 de que el resultado sea una falsa alarma.

Fuente: Nielsen Norman Group

Por qué la significancia estadística es importante

La significancia estadística es la herramienta que separa la señal del ruido. Cuando una plataforma de pruebas te dice que un resultado es estadísticamente significativo, está haciendo una afirmación específica: si realmente no hubiera diferencia entre las dos versiones, una brecha tan grande sería poco probable que apareciera por puro azar. El umbral más común es una confianza del 95 por ciento, lo que corresponde a aceptar una probabilidad del cinco por ciento de que la aleatoriedad te esté engañando.

Ese cinco por ciento no es un error de redondeo que puedas ignorar. Significa que si ejecutas veinte pruebas donde nada real está sucediendo, en promedio una de ellas aún mostrará un resultado "significativo" puramente por suerte. Por eso, los equipos disciplinados no celebran una sola prueba significativa como si fuera el evangelio. Observan si el resultado es plausible, si se repite y si el tamaño de la mejora es lo suficientemente grande como para importar al negocio.

Nivel de confianza y el riesgo que aceptas

Elegir un nivel de confianza es, en realidad, elegir cuánto riesgo de un falso positivo estás dispuesto a asumir. Un umbral del 90 por ciento alcanza la significancia más rápido, pero se equivoca con más frecuencia. Un umbral del 99 por ciento es mucho más cauteloso, pero requiere mucho más tráfico y paciencia. Para la mayoría de las decisiones empresariales diarias, el 95 por ciento es un equilibrio sensato. Lo importante es decidir el umbral antes de iniciar la prueba, no después de haber visto los números y haber empezado a buscar una excusa para detenerte.

Tamaño de la muestra y por qué la paciencia rinde frutos

La razón más común por la que las pruebas A/B engañan a las personas es que se detienen demasiado pronto. Al principio de una prueba, las tasas de conversión de tus dos grupos fluctuarán drásticamente. Una versión podría parecer que está ganando por un margen enorme el primer día, luego quedar atrás el tercer día, para luego recuperarse el quinto día. Estas fluctuaciones son normales y disminuyen a medida que más visitantes entran en la prueba. Actuar sobre una ventaja temprana es como llamar a una moneda sesgada después de tres caras seguidas.

Antes de lanzar una prueba, debes estimar cuántos visitantes y conversiones necesitas para detectar una diferencia significativa. Esto se llama el tamaño de muestra requerido, y la mayoría de las herramientas de prueba incluyen una calculadora para ello. Cuanto menor sea la mejora que quieras detectar, más tráfico necesitarás. Detectar una diferencia grande y obvia requiere relativamente pocos datos. Detectar una mejora sutil del uno o dos por ciento puede llevar semanas o meses de tráfico.

Cómo el tamaño del efecto influye en los datos que necesitas
Mejora que quieres detectar	Requisito de datos relativo
Grande y obvio	Relativamente pequeño; los resultados llegan rápidamente
Moderado	Significativo; espera que funcione durante semanas
Pequeño y sutil	Muy grande; puede ser impráctico con poco tráfico

El problema de mirar antes de tiempo

Es tentador revisar una prueba en curso varias veces al día y detenerla en el momento en que cruza la línea de significancia. Este hábito, conocido como "peeking" (mirar antes de tiempo), destruye silenciosamente la confiabilidad de tus resultados. Cada vez que revisas y consideras detenerte, le das a la aleatoriedad otra oportunidad de darte un falso positivo. El enfoque disciplinado es establecer el tamaño de tu muestra con anticipación, dejar que la prueba se ejecute hasta ese punto y solo entonces leer el resultado. Si tu herramienta admite métodos de prueba secuencial adecuados, mirar antes de tiempo es más seguro, pero lo más seguro por defecto es simplemente esperar.

Diseñar una prueba que valga la pena ejecutar

Una buena prueba comienza con una hipótesis clara, no con un vago impulso de cambiar algo. Una hipótesis establece qué vas a cambiar, qué esperas que suceda y por qué. Por ejemplo: "Mover las opiniones de los clientes por encima del botón de compra aumentará las compras porque los compradores ganan confianza antes de decidirse". Este formato te obliga a pensar en el mecanismo y te da algo que aprender, ya sea que la prueba gane o pierda.

Pruebe un cambio significativo a la vez cuando desee comprender la causa y el efecto. Si cambia el título, la imagen, el color del botón y el precio a la vez y las conversiones aumentan, nunca sabrá qué cambio hizo el trabajo. Probar variables individuales es más lento, pero construye un conocimiento genuino que puede reutilizar. Cuando simplemente desea la combinación de mejor rendimiento y tiene mucho tráfico, existen métodos más avanzados, pero para la mayoría de las empresas, un cambio claro por prueba es la disciplina correcta.

Leer el resultado honestamente

Cuando una prueba concluye, importan tres preguntas. Primero, ¿es el resultado estadísticamente significativo en el umbral que estableciste de antemano? Segundo, ¿la mejora es lo suficientemente grande como para justificar el esfuerzo de implementarla y mantenerla? Una mejora estadísticamente real de una fracción de un porcentaje puede no justificar el trabajo. Tercero, ¿el resultado tiene sentido dado lo que sabes sobre tus clientes? Un ganador extraño e inexplicable merece una segunda prueba antes de confiar en él.

También vale la pena recordar que una prueba que no muestra diferencias significativas no es un fracaso. Es información. Te dice que el cambio en el que creías no tuvo efecto, lo que te evita implementar algo inútil y te libera para probar una idea más prometedora. Los equipos que mejoran más rápido son los que tratan los resultados no concluyentes como una parte normal y útil del proceso en lugar de una decepción que debe ser enterrada.

1 en 20

Con un 95 por ciento de confianza, esa es aproximadamente la frecuencia con la que la pura casualidad puede imitar a un ganador real cuando nada ha cambiado realmente.

Fuente: Nielsen Norman Group

Errores comunes que arruinan las pruebas

Más allá de detenerse temprano y echar un vistazo, un puñado de errores aparecen una y otra vez. Realizar una prueba durante un período inusual, como una gran venta o un día festivo, puede producir resultados que no son válidos en semanas normales. Enviar tráfico desigual a cada versión rompe la división aleatoria y sesga el resultado. Dejar que una prueba se ejecute tanto tiempo que los mismos visitantes recurrentes vean diferentes versiones en diferentes días puede desdibujar la comparación. Y medir el objetivo incorrecto, como clics en lugar de compras completadas, puede coronar una variante que parece activa pero no genera nada.

Quizás el error más perjudicial es probar cambios triviales mientras se ignoran las partes de la experiencia que realmente frustran a los clientes. Las pruebas A/B son un instrumento de precisión. Apuntarlo al color de un enlace menor mientras un proceso de pago confuso pierde ventas silenciosamente es un mal uso de la herramienta. Combine las pruebas con una mirada honesta a dónde luchan los clientes, y elegirá experimentos mucho mejores para ejecutar. Comprender la diferencia entre un patrón real y una coincidencia también ayuda aquí, por lo que vale la pena aprender a leer los datos cuidadosamente en lugar de reaccionar a cada fluctuación.

Qué probar primero cuando las ideas superan al tráfico

La mayoría de las empresas tienen muchas más ideas dignas de probar que visitantes para probarlas. Cuando eso sucede, el orden en que se ejecutan los experimentos importa enormemente, porque cada prueba consume semanas de tráfico que podrían haberse dedicado a una pregunta más valiosa. Una forma sensata de priorizar es sopesar tres cosas para cada idea: cuán seguro estás de que funcionará, cuán grande es la mejora potencial y cuán fácil es construirla. Las ideas que puntúan bien en las tres deben ir primero, y los ajustes que suenan inteligentes pero que tardarían semanas en implementarse para una pequeña ganancia posible deberían esperar, quizás para siempre.

También conviene probar dónde ya está el tráfico y el dinero. Un experimento en una página que ven miles de personas y donde realmente ocurren las compras llegará a una conclusión mucho más rápido, y será mucho más importante, que el mismo experimento en un rincón tranquilo del sitio. Concentrar tu presupuesto de pruebas en el puñado de páginas que sustentan el negocio es una de las formas más sencillas de obtener más valor de un número limitado de experimentos. El objetivo no es probarlo todo, sino probar las pocas cosas que realmente podrían mover los números, y aprender de cada una antes de asignar el siguiente segmento de tráfico.

Documenta lo que aprendes, ganes o pierdas

El único hábito que diferencia a los equipos que mejoran de los que simplemente se mantienen ocupados es anotar lo que cada prueba les enseñó. Un breve registro de la hipótesis, el resultado y tu interpretación convierte una serie dispersa de experimentos en conocimiento acumulado. Durante un año, ese registro te impide repetir pruebas que ya has ejecutado, revela patrones en aquello a lo que responden tus clientes y les brinda a los nuevos miembros del equipo una forma rápida de comprender lo que ya se ha intentado. Sin él, las lecciones duramente aprendidas se evaporan, y las empresas terminan probando las mismas ideas cansadas una y otra vez porque nadie recuerda cómo resultaron la última vez.

Poniéndolo todo junto

Un hábito confiable de pruebas A/B se reduce a una breve lista de principios. Formula una hipótesis clara. Decide tu umbral de confianza y el tamaño de muestra requerido antes de iniciar. Deja que la prueba se ejecute hasta su finalización sin mirar los resultados antes de tiempo. Juzga el resultado en función de la significancia, el tamaño y la plausibilidad juntos. Y trata los resultados no concluyentes como conocimiento útil en lugar de un esfuerzo desperdiciado. Sigue estos principios y tus experimentos se acumularán constantemente en un sitio web que realmente convierte mejor, en lugar de un cementerio de cambios que parecieron correctos en su momento.

La recompensa de esta disciplina es la confianza. Cuando has realizado una prueba adecuada, puedes tomar una decisión y defenderla, sabiendo que se basa en evidencia en lugar de la voz más ruidosa de la sala. A lo largo de meses y años, esa certeza acumulada es lo que diferencia a las empresas que mejoran metódicamente de aquellas que van de un rediseño a otro. Se conecta naturalmente con un trabajo de análisis más amplio, y puedes ver cómo encaja en una estrategia de medición más amplia en nuestra guía de análisis de datos para pequeñas y medianas empresas.

Preguntas frecuentes

¿Cuánto tiempo debe durar una prueba A/B?+

Ejecútala hasta que alcance el tamaño de muestra que calculaste de antemano, e idealmente durante al menos uno o dos ciclos comerciales completos para que se representen tanto el comportamiento de los días de semana como el de los fines de semana. No te detengas en el momento en que parezca significativo.

¿Qué prueba realmente la significancia estadística?+

Te dice que una diferencia tan grande sería poco probable que apareciera por casualidad si las dos versiones fueran realmente iguales. No garantiza que el resultado sea real o que dure para siempre, por lo que repetir victorias importantes es sabio.

¿Puedo realizar pruebas si tengo poco tráfico?+

Sí, pero solo puedes detectar de forma fiable grandes diferencias. Con tráfico limitado, concéntrate en cambios audaces en páginas de alto impacto en lugar de ajustes sutiles, y acepta que las pruebas tardarán más en llegar a una conclusión fiable.

¿Es malo si mi prueba no muestra un ganador?+

En absoluto. Un resultado no concluyente te dice que el cambio no importó mucho, lo que te evita implementar algo inútil y te dirige hacia ideas más prometedoras para probar a continuación.

Referencias

Nielsen Norman Group, artículos sobre pruebas A/B y confiabilidad estadística en investigación de usuarios, nngroup.com
Ayuda de Google Analytics, documentación sobre experimentos y medición del rendimiento del sitio web, support.google.com

Para profundizar, explora nuestros recursos más amplios sobre cómo convertir el análisis en acción y los principios detrás de las pruebas A/B para una tienda en línea. También puede resultarte útil leer cómo una experimentación cuidadosa respalda la mejora basada en datos a lo largo del tiempo.

Si necesitas ayuda para configurar experimentos fiables, obtén más información sobre nuestros servicios de análisis de datos o ponte en contacto para hablar sobre tus objetivos.

Regresar al blog

Artículo agregado a tu carrito

Pruebas A/B y significancia estadística

Qué hace realmente una prueba A/B

Por qué la significancia estadística es importante

Nivel de confianza y el riesgo que aceptas

Tamaño de la muestra y por qué la paciencia rinde frutos

El problema de mirar antes de tiempo

Diseñar una prueba que valga la pena ejecutar

Leer el resultado honestamente

Errores comunes que arruinan las pruebas

Qué probar primero cuando las ideas superan al tráfico

Documenta lo que aprendes, ganes o pierdas

Poniéndolo todo junto

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.

País/región

Idioma

Qué hace realmente una prueba A/B

Por qué la significancia estadística es importante

Nivel de confianza y el riesgo que aceptas

Tamaño de la muestra y por qué la paciencia rinde frutos

El problema de mirar antes de tiempo

Diseñar una prueba que valga la pena ejecutar

Leer el resultado honestamente

Errores comunes que arruinan las pruebas

Qué probar primero cuando las ideas superan al tráfico

Documenta lo que aprendes, ganes o pierdas

Poniéndolo todo junto

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.