Cómo funcionan los benchmarks de IA (y por qué son importantes)

Jazmie Jamaludin

Cada vez que se anuncia un nuevo modelo de IA, el comunicado de prensa está repleto de números: puntuaciones en pruebas con nombres como MMLU, GPQA y SWE-bench, cada una supuestamente demostrando que este modelo es más inteligente que el anterior. Para un propietario de negocio que intenta elegir una herramienta, estos números pueden ser tanto tranquilizadores como confusos. Parecen autoritarios, pero rara vez está claro qué miden o si tienen algo que ver con el trabajo que realmente necesita hacerse.

Este artículo desmitifica los benchmarks de IA. Explicaremos qué es un benchmark, cómo se produce una puntuación, por qué los benchmarks son importantes y, lo que es igual de importante, dónde pueden engañar. El objetivo no es convertirlo en un investigador de aprendizaje automático, sino darle suficiente comprensión para leer una tabla de clasificación con un escepticismo saludable y tomar mejores decisiones.

Qué es realmente un benchmark

Un benchmark es simplemente una prueba estandarizada. Los investigadores reúnen un conjunto fijo de preguntas o tareas con respuestas correctas conocidas, dan el mismo conjunto a cada modelo de IA y registran cuántas acierta cada uno. Debido a que cada modelo se enfrenta a la prueba idéntica, las puntuaciones se pueden comparar. En principio, esto no es diferente a dar a cada estudiante de una clase el mismo examen para poder clasificar su rendimiento.

Las preguntas varían enormemente dependiendo de lo que el benchmark está diseñado para evaluar. Algunos prueban el conocimiento factual amplio en muchas materias. Otros prueban el razonamiento paso a paso en problemas difíciles. Otros prueban si un modelo puede escribir software funcional, resolver matemáticas o seguir instrucciones de forma segura. Un solo modelo suele ser probado con muchos benchmarks, por lo que los anuncios llegan con una tabla de números en lugar de una sola cifra.

Ayuda pensar en los benchmarks de la misma manera que se piensa en los exámenes estandarizados en la educación. Ningún examen único abarca todo lo que una persona puede hacer, y una calificación alta en una materia no dice nada sobre la habilidad en otra. Lo mismo ocurre aquí: un modelo que sobresale en un benchmark puede ser poco notable en otro, razón por la cual el campo mantiene toda una familia de ellos en lugar de coronar una prueba universal.

Una prueba, muchos modelos

Un benchmark funciona porque cada modelo responde al mismo conjunto fijo de preguntas, lo que hace que las puntuaciones sean directamente comparables

Fuente: Stanford HAI AI Index

Cómo se produce una puntuación

La mecánica es más sencilla de lo que sugiere la jerga. El benchmark contiene, digamos, mil preguntas, cada una con una respuesta correcta que las personas que ejecutan la prueba mantienen oculta del modelo. Al modelo se le da cada pregunta, produce una respuesta, y un verificador automático compara su respuesta con la correcta. La puntuación final suele ser el porcentaje de aciertos, por lo que un modelo que obtiene 85 en un benchmark acertó el 85 por ciento de esa prueba.

Algunos detalles complican esta imagen clara. Algunas respuestas son fáciles de verificar automáticamente porque son de opción múltiple o un solo número. Otras, un párrafo de escritura, un fragmento de código funcional, requieren una verificación más elaborada, como ejecutar el código para ver si pasa un conjunto de pruebas. La forma en que un benchmark califica sus respuestas dice mucho sobre cuán confiable y relevante es el resultado.

También está la cuestión de cómo se le permite al modelo resolver cada problema. Algunas puntuaciones se informan cuando el modelo responde en un solo intento; otras cuando se le permite razonar extensamente, o hacer varios intentos y quedarse con el mejor. Estas condiciones pueden cambiar considerablemente una cifra principal, razón por la cual dos fuentes pueden citar puntuaciones diferentes para lo que suena como el mismo modelo en la misma prueba. Cuando una cifra parece sorprendentemente alta, vale la pena preguntar bajo qué condiciones se logró.

Por qué algunos benchmarks son más difíciles de manipular que otros

Un benchmark que le pide a un modelo que corrija un error de software real y luego ejecuta las propias pruebas del proyecto para ver si la corrección funciona es más difícil de falsificar que uno que hace preguntas triviales de opción múltiple. El primero mide si algo útil realmente sucedió; el segundo a veces puede pasarse por coincidencia de patrones. Como regla general, los benchmarks vinculados a resultados verificables del mundo real le dan más confianza que aquellos que solo recompensan la memorización.

Por qué importan los benchmarks

A pesar de sus limitaciones, los benchmarks son genuinamente valiosos, y vale la pena tener claro por qué. Le dan al campo un criterio común. Sin ellos, cada proveedor simplemente afirmaría ser el mejor, y no habría una forma neutral de comparar. Los benchmarks también impulsan el progreso: cuando todos pueden ver dónde tienen dificultades los modelos, los investigadores se centran en cerrar la brecha y las capacidades mejoran más rápido.

Para una empresa, los benchmarks ofrecen un primer filtro útil. Si necesita una herramienta para manejar razonamientos complejos o escribir código confiable, las puntuaciones de los benchmarks relevantes le ayudan a elaborar una lista corta rápidamente. No tomarán la decisión final por usted, eso requiere pruebas en sus propias tareas, pero le ahorran la evaluación de herramientas obviamente inadecuadas. Tratar los benchmarks como un filtro en lugar de un veredicto es la forma más saludable de usarlos.

Los benchmarks también son la forma en que la conversación más amplia sobre el progreso de la IA se mantiene honesta. Cuando un grupo de investigación afirma un avance, otros pueden ejecutar las mismas pruebas y verificar. Esta cultura de medición compartida y reproducible es parte de lo que ha impulsado el campo tan rápidamente, y vale la pena apreciarla incluso cuando las puntuaciones individuales merecen escepticismo. Las pruebas son imperfectas, pero un mundo con ellas es mucho más transparente que un mundo donde cada afirmación tenía que ser aceptada por confianza.

Lo que los benchmarks te dicen y no te dicen
Un benchmark puede mostrar	Un benchmark no puede mostrar
Habilidad relativa en una tarea definida	Cómo se desempeña en su trabajo específico
Progreso a lo largo del tiempo entre modelos	Fiabilidad en casos extremos
Candidatos capaces en lista corta	Costo, velocidad o facilidad de integración
Fortalezas y debilidades generales	Si la puntuación fue inflada

Dónde los benchmarks pueden inducir a error

Los benchmarks tienen trampas bien conocidas, y comprenderlas es la diferencia entre leer una tabla de clasificación sabiamente y dejarse engañar por ella. Tres problemas importan más.

Contaminación

Los modelos de IA aprenden de enormes cantidades de texto recopilado de Internet. Si las preguntas y respuestas del benchmark aparecen en esos datos de entrenamiento, el modelo puede haber visto el examen de antemano. Su alta puntuación entonces refleja la memoria, no la habilidad. Los investigadores trabajan arduamente para evitar esto, pero es una preocupación persistente, especialmente con benchmarks más antiguos y ampliamente publicados.

Enseñar para la prueba

Debido a que las puntuaciones de los benchmarks se utilizan en marketing, existe un incentivo para optimizar específicamente para ellas. Un modelo puede ser ajustado para obtener buenos resultados en un benchmark famoso sin volverse más útil en general, de la misma manera que un estudiante puede ser entrenado para aprobar un examen sin comprender realmente la materia. Por lo tanto, una puntuación alta en un solo benchmark destacado es una evidencia más débil que un rendimiento consistente en muchos.

Saturación

A medida que los modelos mejoran, comienzan a obtener puntuaciones cercanas al máximo en los benchmarks más antiguos. Una vez que varios modelos obtienen puntuaciones en los noventa altos, la prueba ya no puede distinguirlos, y las diferencias que quedan están dentro del margen de ruido. Por eso, el campo sigue inventando benchmarks más difíciles, y por qué una puntuación que encabeza la tabla en un benchmark saturado significa menos de lo que parece.

Hay un cuarto problema, más sutil, que vale la pena mencionar: un benchmark mide la tarea que mide y nada más. Un modelo puede sobresalir en una prueba de razonamiento y aún así ser inútil en una conversación real porque es lento, evasivo o difícil de manejar. Ninguna de esas cualidades cotidianas aparece en una puntuación de benchmark, sin embargo, a menudo determinan si una herramienta es agradable o dolorosa de usar día a día. Mantenga firmemente en mente esa brecha entre "obtiene buenas puntuaciones" y "funciona bien para mí".

Una guía, no un evangelio

La contaminación, la saturación y la enseñanza para la prueba significan que una tabla de clasificación debe tratarse como un punto de partida, no una respuesta final

Fuente: Artificial Analysis

Cómo usar los benchmarks como dueño de un negocio

Juntando esto, un enfoque sensato tiene tres pasos. Primero, use las puntuaciones de los benchmarks para crear una lista corta de dos o tres herramientas candidatas que parezcan sólidas en el tipo de trabajo que necesita. Las tablas de clasificación públicas como Artificial Analysis y las comparaciones votadas por la comunidad como LMArena son lugares razonables para comenzar, porque agregan muchas pruebas y reflejan una variedad de juicios en lugar de la afirmación de un solo proveedor.

Segundo, ignore las pequeñas diferencias. Si una herramienta puntúa 89 y otra 88, trátelas como equivalentes; esa brecha está dentro del margen de ruido y el riesgo de contaminación descrito anteriormente. Tercero, y lo más importante, realice su propia prueba. Dé a cada herramienta preseleccionada un puñado de tareas reales de su negocio y juzgue los resultados usted mismo. Su propio trabajo es el único benchmark que realmente cuenta, y captura cosas —tono, fiabilidad, facilidad de uso— que ninguna prueba pública mide.

Una forma práctica de hacer esto es crear un pequeño conjunto privado de tareas de prueba extraídas de su trabajo real: algunos correos electrónicos de clientes para redactar, un informe para resumir, una pregunta complicada que un cliente hizo una vez. Debido a que estas tareas son suyas y nunca fueron publicadas, ningún modelo podría haberlas memorizado, lo que evita por completo el problema de la contaminación. Ejecute cada herramienta preseleccionada a través del mismo conjunto y compare los resultados uno al lado del otro. Este benchmark casero le dirá más sobre qué herramienta se adapta a su negocio que cualquier tabla de clasificación pública jamás podría.

Para una mirada más profunda a las pruebas específicas que encontrará, consulte nuestra explicación sobre benchmarks comunes de IA, y para el contexto más amplio, nuestra guía fundamental sobre qué es la inteligencia artificial. Si prefiere no sumergirse en las puntuaciones en absoluto, nuestra nota sobre cómo elegir el modelo de IA adecuado adopta un enfoque práctico y centrado en los resultados para la misma decisión.

Poniendo una sola puntuación en perspectiva

Ayuda recordar lo que un número de benchmark es y lo que no es. Es una medición de una habilidad, tomada bajo condiciones particulares, en un momento particular. No es un veredicto sobre el valor de un modelo, y ciertamente no es una promesa sobre cómo se comportará el modelo en su trabajo. Tratar una sola puntuación como un juicio final es un poco como elegir un empleado basándose únicamente en el resultado de un examen, ignorando todo sobre cómo se desempeñaría realmente en el puesto.

La señal más fiable que un benchmark puede darle es la consistencia. Un modelo que funciona bien en muchas pruebas diferentes, realizadas por diferentes grupos independientes, muestra una amplia competencia que es difícil de fingir. Un modelo que brilla en una prueba famosa pero es poco notable en otros lugares merece más escepticismo, porque ese patrón es exactamente lo que se esperaría de una herramienta ajustada para impresionar en una sola medida. Cuando lea una tabla de puntuaciones, fíjese menos en el número más alto y más en si la fortaleza se distribuye uniformemente o se concentra sospechosamente en un solo lugar.

Preguntas frecuentes

¿Qué es un benchmark de IA en términos sencillos?+

Es una prueba estandarizada con respuestas conocidas, administrada a cada modelo de IA para que sus resultados puedan compararse de manera justa. La puntuación suele ser el porcentaje de preguntas respondidas correctamente.

¿Una puntuación más alta en un benchmark significa una mejor herramienta para mí?+

No necesariamente. Una puntuación alta indica una capacidad general, pero la herramienta adecuada para usted depende de sus tareas específicas, además del costo, la velocidad y la facilidad de uso que los benchmarks no capturan.

¿Por qué las puntuaciones de los benchmarks a veces parecen infladas?+

Dos razones destacan: la contaminación, donde las preguntas de la prueba aparecieron en los datos de entrenamiento del modelo, y la enseñanza para la prueba, donde un modelo se ajusta para pasar un benchmark famoso sin volverse más útil en general.

¿Deberían las pequeñas diferencias en las puntuaciones influir en mi elección?+

No. Uno o dos puntos de diferencia entre herramientas están dentro del margen de ruido. Trate las herramientas con puntuaciones similares como equivalentes y decida entre ellas probándolas en sus propias tareas reales.

Referencias

Stanford HAI, Informe del Índice de IA — hai.stanford.edu
Artificial Analysis, benchmarking de IA independiente — artificialanalysis.ai

¿Necesita ayuda para elegir una herramienta que se adapte a su trabajo en lugar de una tabla de clasificación? Explore nuestro chatbot de IA para WhatsApp o póngase en contacto y le ayudaremos a desglosar los números.

Regresar al blog

Artículo agregado a tu carrito

Cómo funcionan los benchmarks de IA (y por qué son importantes)

Qué es realmente un benchmark

Cómo se produce una puntuación

Por qué algunos benchmarks son más difíciles de manipular que otros

Por qué importan los benchmarks

Dónde los benchmarks pueden inducir a error

Contaminación

Enseñar para la prueba

Saturación

Cómo usar los benchmarks como dueño de un negocio

Poniendo una sola puntuación en perspectiva

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.

País/región

Idioma

Qué es realmente un benchmark

Cómo se produce una puntuación

Por qué algunos benchmarks son más difíciles de manipular que otros

Por qué importan los benchmarks

Dónde los benchmarks pueden inducir a error

Contaminación

Enseñar para la prueba

Saturación

Cómo usar los benchmarks como dueño de un negocio

Poniendo una sola puntuación en perspectiva

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.