MMLU, GPQA, SWE-bench: Explicación de los benchmarks de IA más comunes

Jazmie Jamaludin

Si ha leído recientemente el anuncio de un modelo de IA, se habrá encontrado con un pequeño alfabeto de siglas —MMLU, GPQA, SWE-bench, MATH, HumanEval— presentadas como evidencia de que un modelo supera a otro. Para cualquiera ajeno al campo, parecen un código secreto, y es tentador ignorarlas o tomarlas al pie de la letra. Ninguna de las dos respuestas le será útil.

Esta guía repasa los puntos de referencia que es más probable que encuentre, uno a la vez, en un lenguaje sencillo. Para cada uno, explicamos qué prueba, cómo interpretar una puntuación y si es probable que sea importante para el tipo de trabajo que realmente realiza una empresa. Al final, debería poder echar un vistazo a una tabla comparativa y saber qué números merecen su atención.

Una breve explicación sobre lo que significan estas puntuaciones

Antes del recorrido, un recordatorio de lo básico. Un benchmark es un conjunto fijo de preguntas con respuestas conocidas, que se administra a cada modelo para poder comparar los resultados. La puntuación es casi siempre el porcentaje de respuestas correctas, por lo que un modelo que obtiene 80 en un benchmark acertó cuatro quintas partes de esa prueba en particular. Un número más alto es mejor, pero solo en la parte estrecha que mide ese benchmark. Si desea una imagen completa de cómo se construyen estas pruebas y dónde fallan, nuestro artículo complementario sobre cómo funcionan los benchmarks de IA lo cubre en detalle.

Algo que debe tener en cuenta: estos nombres suenan técnicos, pero cada uno es en realidad solo una pregunta del tipo "¿puede el modelo hacer este tipo particular de cosa?". Una vez que sepa lo que pregunta cada benchmark, las siglas perderán su misterio y se convertirán en una taquigrafía útil para las habilidades que le pueden interesar.

Cada prueba, una habilidad

Ningún benchmark individual mide la inteligencia general; cada uno sondea una habilidad limitada, por lo que los modelos se ejecutan contra muchos

Fuente: Stanford HAI AI Index

MMLU: amplio conocimiento general

MMLU significa "Massive Multitask Language Understanding" (Comprensión Masiva del Lenguaje Multitarea). Es una prueba exhaustiva de conocimiento fáctico y comprensión en docenas de materias —historia, derecho, medicina, matemáticas y más— planteada como preguntas de opción múltiple. Su propósito es medir cuán ampliamente un modelo ha absorbido el conocimiento humano, más que cuán profundamente puede razonar sobre una cosa en particular.

Para una empresa, MMLU es un buen indicador de la utilidad general como asistente integral. Un modelo que obtiene una buena puntuación tiende a ser un generalista capacitado y con conocimientos. El problema es que MMLU es uno de los puntos de referencia más antiguos y publicados, lo que lo hace especialmente propenso a dos problemas: la contaminación, donde las respuestas se han filtrado en los datos de entrenamiento, y la saturación, donde los mejores modelos ahora se agrupan tan cerca de la cima que la prueba ya no puede separarlos. Lea una puntuación MMLU alta como "generalista competente" en lugar de "claramente el mejor".

GPQA: razonamiento de nivel de posgrado

GPQA —la "G" significa nivel de posgrado y las "Q"s para un conjunto de preguntas y respuestas de calidad controlada— se creó en parte como respuesta a la saturación de MMLU. Sus preguntas son deliberadamente difíciles, escritas por expertos en campos como la biología, la física y la química, y diseñadas para que incluso un no especialista con conocimientos y acceso a Internet tuviera dificultades. El objetivo es probar el razonamiento genuino, no la recuperación de información que podría buscarse.

Debido a que las preguntas son tan exigentes, las puntuaciones en GPQA son mucho más bajas que en MMLU, y las diferencias entre los modelos son más significativas. Si su trabajo implica análisis complejos, resolución de problemas técnicos o cualquier cosa que requiera que el modelo razone cuidadosamente a través de material difícil, GPQA es uno de los puntos de referencia más informativos para consultar. Un modelo que se mantiene firme en GPQA es uno en el que puede confiar para un pensamiento más difícil, no solo para búsquedas rápidas.

SWE-bench: corrección de software real

SWE-bench es el benchmark más concreto de esta lista y uno de los más respetados. Extrae problemas reales de proyectos de software reales —errores reales que reportaron desarrolladores reales— y le pide al modelo que produzca una solución. Crucialmente, la solución se ejecuta luego contra las propias pruebas automatizadas del proyecto. El modelo solo obtiene puntuación si su solución realmente hace que el software funcione, no solo si parece plausible.

Esta base en un resultado verificable y del mundo real es lo que hace valioso a SWE-bench. Es mucho más difícil de falsear que una prueba de opción múltiple, porque no hay crédito parcial para una respuesta que no se ejecuta realmente. Si está evaluando asistentes de codificación de IA, SWE-bench es el punto de referencia a observar, aunque, como siempre, su propio código base es la prueba real. Nuestra descripción general de los asistentes de codificación de IA lo pone en contexto.

Puntos de referencia comunes de un vistazo
Benchmark	Qué mide
MMLU	Amplio conocimiento general en diversas materias
GPQA	Razonamiento experto a nivel de posgrado
SWE-bench	Reparación de errores de software del mundo real
MATH / AIME	Resolución de problemas matemáticos de varios pasos
HumanEval	Escritura de funciones de código pequeñas y correctas

MATH y AIME: resolución de problemas matemáticos

El benchmark MATH, y los problemas relacionados de AIME extraídos de una conocida competición de matemáticas, prueban si un modelo puede resolver un razonamiento matemático de varios pasos para llegar a una respuesta correcta. No son ejercicios de aritmética; requieren que el modelo planifique una solución, la ejecute y llegue a un resultado preciso que sea fácil de verificar.

¿Por qué debería preocuparse una empresa no matemática? Porque el rendimiento en matemáticas difíciles se considera generalmente una señal de razonamiento cuidadoso y estructurado en general. Un modelo que puede resolver estos problemas de manera fiable tiende a ser mejor en cualquier tarea que requiera seguir una cadena lógica sin perder el hilo, como la planificación, el análisis estructurado y similares. Lea las puntuaciones altas en MATH o AIME como evidencia de un razonamiento disciplinado, en lugar de considerarlas relevantes solo para matemáticos.

HumanEval: escribir pequeñas piezas de código

HumanEval es un benchmark de codificación más antiguo que le pide a un modelo que escriba funciones pequeñas y autocontenidas a partir de una descripción, y luego las verifica ejecutando pruebas. Es más simple y más estrecho que SWE-bench —acertijos aislados en lugar de proyectos complejos del mundo real— y, al igual que MMLU, se ha saturado en gran medida, con los modelos líderes obteniendo puntuaciones muy altas. Sigue siendo una verificación rápida y sencilla de la capacidad de codificación básica, pero una puntuación alta en HumanEval ya no es un diferenciador significativo, como lo es una puntuación alta en SWE-bench.

Por qué siguen apareciendo nuevos benchmarks

Puede que note que los benchmarks más informativos de esta lista —GPQA y SWE-bench— también se encuentran entre los más recientes, mientras que los más antiguos han perdido su capacidad para diferenciar modelos. Esto no es una coincidencia. A medida que los modelos mejoran, agotan la dificultad de las pruebas existentes, y los investigadores responden construyendo otras más difíciles. Espere que este ciclo continúe: los nombres de los benchmarks en los titulares dentro de un año pueden diferir de los de hoy. Sin embargo, la lección subyacente sigue siendo la misma: favorezca las pruebas vinculadas a tareas difíciles y verificables, y trate las saturadas como ruido de fondo.

Mundo real sobre recuerdo

Los benchmarks vinculados a resultados verificables, como SWE-bench, son más difíciles de falsear que las pruebas que recompensan hechos memorizados

Fuente: Análisis Artificial

¿Qué benchmarks deberían importarte realmente?

La respuesta honesta es: los que coincidan con su trabajo, y ninguno demasiado literalmente. Si desea un asistente versátil y capaz para escribir, resumir y planificar, las pruebas amplias como MMLU dan una idea aproximada de la competencia general, pero trate las puntuaciones máximas muy cercanas como un empate. Si su trabajo es técnico o analítico, GPQA y los benchmarks de matemáticas son más reveladores. Si está eligiendo una herramienta de codificación, SWE-bench es la que debe considerar con mayor peso.

Sea cual sea su trabajo, resista dos tentaciones. La primera es obsesionarse con un solo número principal; un modelo fuerte en varios puntos de referencia es una apuesta más segura que uno que encabeza una única prueba famosa. La segunda es confundir cualquier punto de referencia con su propia realidad. Las clasificaciones públicas, como Artificial Analysis, agregan estas pruebas de manera útil, y las comparaciones votadas por la multitud, como LMArena, añaden una dimensión de preferencia humana, pero la prueba decisiva siempre es ejecutar sus propias tareas con las herramientas preseleccionadas.

Una forma sencilla de mantener todo esto en proporción es recordar para qué sirven las puntuaciones. Existen para ayudar a los investigadores y compradores a comparar modelos de un vistazo, un punto de partida, no un sustituto del juicio. En el momento en que un benchmark se convierte en el objetivo en lugar de una guía, comienza a engañar. Utilice estos números para reducir rápidamente sus opciones, luego confíe en su propia prueba práctica para tomar la decisión final. Para una forma estructurada de hacer esa comparación, consulte nuestra guía para evaluar herramientas de IA, y para una visión más amplia, nuestro pilar sobre qué es la inteligencia artificial.

Cómo encajan estos benchmarks

Puede ser tentador tratar estas pruebas como rivales, pero se entienden mejor como lentes complementarias, cada una iluminando una faceta diferente de lo que un modelo puede hacer. Las pruebas de conocimiento general, como MMLU, le indican si un modelo es un generalista capaz. Las pruebas de razonamiento difíciles, como GPQA, le indican si puede pensar cuidadosamente a través de material complejo. Las pruebas de matemáticas revelan su disciplina para seguir una larga cadena lógica. Los benchmarks de codificación, especialmente los verificados, muestran si puede producir algo que realmente funcione. Ninguna prueba por sí sola captura todo esto, y es exactamente por eso que los anuncios presentan una tabla completa en lugar de un solo número.

Para una empresa, la conclusión práctica es leer la tabla de forma selectiva en lugar de intentar absorber cada cifra. Identifique una o dos habilidades que le interesen para el trabajo que tiene en mente, encuentre los puntos de referencia que miden esas habilidades y deje que el resto sirva como telón de fondo. Un modelo que destaca en una habilidad irrelevante para usted no es más útil que un coche que es el más rápido en una pista por la que nunca conducirá. Adaptar la medida a su necesidad es todo el arte de leer bien estas comparaciones.

Una palabra sobre lo rápido que cambia esto

Una última advertencia: cualquier cosa específica que lea sobre los resultados de los benchmarks envejece rápidamente. Constantemente aparecen nuevos modelos, se actualizan los más antiguos y las propias pruebas se revisan o reemplazan a medida que se saturan. Trate los números particulares que ve hoy como una instantánea, no como una clasificación establecida. Lo que permanece constante es la forma de pensar aquí expuesta: comprender qué mide cada prueba, favorecer el rendimiento verificado sobre el recordado y confiar en su propia prueba práctica por encima de cualquier cifra publicada. Mantenga el método, y los números cambiantes le preocuparán mucho menos.

Transformando puntuaciones en una decisión segura

Supongamos que ha leído una tabla comparativa y uno o dos modelos destacan en las habilidades que le interesan. ¿Qué sigue? El error es detenerse ahí y simplemente adoptar el que obtuvo la mejor puntuación. Un camino más sabio es tratar la tabla como si hubiera reducido un campo abarrotado a una lista corta y sensata. De esa lista, los factores decisivos suelen ser prácticos más que numéricos: cómo la herramienta se adapta a su forma de trabajar, qué tan rápido responde, qué tan claramente se explica y qué tan cómodo se siente su equipo al usarla. Estas cualidades nunca aparecen en un benchmark, sin embargo, a menudo importan más en el día a día que unos pocos puntos de habilidad medidos.

Así que, dé a cada modelo preseleccionado el mismo pequeño conjunto de tareas reales de su propio trabajo y compare los resultados con sus propios ojos. Debido a que esas tareas son específicas para usted y nunca se publicaron, ningún modelo podría haberlas memorizado, lo que evita el problema de contaminación que infla discretamente tantos resultados públicos. La herramienta que produzca los resultados más útiles en su propio material, con la menor corrección, es la respuesta correcta para usted, independientemente de dónde se encuentre en la clasificación. Los benchmarks le indicaron la lista corta; su propio juicio toma la decisión final.

Preguntas frecuentes

¿Qué prueba realmente MMLU?+

MMLU mide un amplio conocimiento general en docenas de materias utilizando preguntas de opción múltiple. Es un buen indicador de la capacidad de un modelo como asistente integral, aunque en gran medida se ha saturado en la parte superior.

¿Por qué se considera SWE-bench más fiable?+

Porque utiliza errores de software reales y verifica cada corrección con las propias pruebas automatizadas del proyecto. El modelo solo puntúa si su solución funciona realmente, lo cual es mucho más difícil de falsear que responder preguntas de opción múltiple.

¿Necesito entender todos estos puntos de referencia?+

No. Céntrese en uno o dos que se ajusten a su trabajo: pruebas amplias para un asistente general, SWE-bench para herramientas de codificación, GPQA y pruebas de matemáticas para el razonamiento técnico. El resto es contexto útil, no esencial.

¿Por qué importan los benchmarks de matemáticas para el trabajo no matemático?+

Un buen rendimiento en matemáticas difíciles indica un razonamiento cuidadoso y en varios pasos, lo que tiende a trasladarse a la planificación y el análisis estructurado. Se lee como una señal de pensamiento disciplinado, no solo de habilidad matemática.

Referencias

Stanford HAI, Informe del Índice de IA — hai.stanford.edu
Artificial Analysis, evaluación comparativa de IA independiente — artificialanalysis.ai

¿No está seguro de qué herramienta se adapta a su trabajo detrás de todos estos números? Pruebe nuestro chatbot de IA para WhatsApp o póngase en contacto para obtener una recomendación directa.

Regresar al blog

Artículo agregado a tu carrito

MMLU, GPQA, SWE-bench: Explicación de los benchmarks de IA más comunes

Una breve explicación sobre lo que significan estas puntuaciones

MMLU: amplio conocimiento general

GPQA: razonamiento de nivel de posgrado

SWE-bench: corrección de software real

MATH y AIME: resolución de problemas matemáticos

HumanEval: escribir pequeñas piezas de código

Por qué siguen apareciendo nuevos benchmarks

¿Qué benchmarks deberían importarte realmente?

Cómo encajan estos benchmarks

Una palabra sobre lo rápido que cambia esto

Transformando puntuaciones en una decisión segura

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.

País/región

Idioma

Una breve explicación sobre lo que significan estas puntuaciones

MMLU: amplio conocimiento general

GPQA: razonamiento de nivel de posgrado

SWE-bench: corrección de software real

MATH y AIME: resolución de problemas matemáticos

HumanEval: escribir pequeñas piezas de código

Por qué siguen apareciendo nuevos benchmarks

¿Qué benchmarks deberían importarte realmente?

Cómo encajan estos benchmarks

Una palabra sobre lo rápido que cambia esto

Transformando puntuaciones en una decisión segura

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.