Modelos de IA de mezcla de expertos, explicados

Jazmie Jamaludin

Imagina que entras en un gran hospital con un extraño dolor en el hombro. No esperas que todos los médicos del edificio se amontonen en la habitación y te examinen a la vez. En cambio, un recepcionista te indica al especialista adecuado, y ese experto se encarga de tu caso mientras los demás continúan con sus propios pacientes. El hospital tiene cientos de médicos, pero tu visita solo involucra a un puñado de ellos. Así es, en pocas palabras, como funciona un modelo de IA de mezcla de expertos.

Es una de las revoluciones más silenciosas de la inteligencia artificial moderna. La frase suena técnica, pero la idea es refrescantemente intuitiva: en lugar de obligar a un cerebro enorme a hacer todo, se construye un sistema de muchos especialistas más pequeños y solo se activan los que realmente se necesitan. En esta guía, desglosaremos lo que eso significa, por qué se ha vuelto tan popular, dónde ayuda y dónde falla, y qué implica para cualquiera que elija o pague por la IA hoy en día.

El problema que resuelve la mezcla de expertos

Para entender por qué existe este diseño, ayuda saber el dolor de cabeza que se inventó para curar. La mayoría de los grandes sistemas de IA son lo que los investigadores llaman modelos "densos". Denso significa que cada parte de la red se enciende para cada solicitud. Si le pides que escriba un haiku, toda la máquina se activa. Si le pides que resuma un contrato, toda la máquina se activa de nuevo. Nada permanece inactivo.

Eso suena exhaustivo, pero es costoso. Cuanto más grande se vuelve un modelo denso, más potencia de cálculo consume cada respuesta, porque todo tiene que ejecutarse de principio a fin cada vez. A medida que los modelos pasaron de millones a miles de millones de configuraciones internas, el coste de ejecutarlos, conocido como inferencia, aumentó drásticamente. Si quieres entender cómo se desarrolla esto en la práctica, nuestro artículo sobre la comprensión de los costes de inferencia de la IA explica exactamente a dónde va el dinero.

La mezcla de expertos, a menudo abreviada como MoE, rompe ese vínculo entre tamaño y coste. Permite que un modelo crezca enormemente en capacidad total, manteniendo pequeña la cantidad de trabajo realizado por solicitud. Obtienes el conocimiento de un gigante sin pagar la factura de un gigante en cada consulta. Para apreciar por qué el tamaño importa, vale la pena leer sobre modelos de IA pequeños versus grandes y cuándo lo más grande es realmente mejor.

Usa unos pocos, no todos

Un modelo de mezcla de expertos puede contener docenas de subredes especializadas, sin embargo, una solicitud típica solo activa una pequeña fracción de ellas a la vez.

Fuente: Google Research, artículo de Switch Transformer

Cómo el modelo realmente decide

Entonces, ¿cómo sabe el modelo qué especialistas activar? Aquí es donde reside la parte ingeniosa. Dentro de un modelo MoE se encuentra un pequeño componente llamado enrutador, a veces llamado red de puertas (gating network). Su único trabajo es mirar cada pieza de texto entrante y decidir qué expertos son los más adecuados para manejarla.

Imagina el enrutador como una enfermera de triaje muy rápida. Mira la solicitud, sopesa las opciones y reenvía el trabajo a los dos o tres expertos con más probabilidades de hacer un buen trabajo. Los otros expertos permanecen inactivos. Su conocimiento sigue siendo parte del modelo, listo para ser utilizado cuando llegue un tipo diferente de solicitud, pero no están quemando energía en esta.

Qué es realmente un "experto"

Es tentador imaginar que un experto sabe de cocina y otro de derecho, etiquetados ordenadamente como libros en una estantería. La realidad es más difusa y extraña. Los expertos no tienen temas asignados a mano. Durante el entrenamiento, el modelo aprende gradualmente a distribuir diferentes tipos de patrones entre sus expertos por sí mismo. Un experto podría terminar manejando ciertas estructuras gramaticales, otro ciertos patrones numéricos, de maneras que no se corresponden limpiamente con las categorías humanas.

Esto surge naturalmente de la forma en que estos sistemas aprenden. Si tienes curiosidad sobre ese proceso subyacente, nuestra explicación sobre cómo se entrenan los modelos de IA en lenguaje sencillo describe cómo los datos brutos se convierten en comportamiento aprendido sin que nadie programe las reglas a mano.

Denso versus disperso, lado a lado

Lo opuesto a un modelo denso es uno "disperso", y la mezcla de expertos es el ejemplo más famoso de dispersión en acción. Disperso simplemente significa que la mayor parte del modelo está inactiva la mayor parte del tiempo. La siguiente tabla presenta las ventajas y desventajas en términos sencillos para que puedas ver por qué los equipos eligen un enfoque sobre el otro.

Modelos densos versus mezcla de expertos de un vistazo
Cualidad	Modelo denso	Mezcla de expertos
Activo por solicitud	Toda la red	Solo unos pocos expertos
Costo por respuesta	Aumenta con el tamaño total	Permanece relativamente bajo
Memoria necesaria	Proporcional al tamaño	Alta, todos los expertos deben estar cargados
Complejidad del entrenamiento	Más simple y bien entendida	Más difícil de equilibrar
Mejor ajuste	Implementaciones más pequeñas y simples	Sistemas muy grandes y de alto tráfico

Por qué esto importa para el costo y la velocidad

El beneficio principal es la eficiencia. Debido a que solo una parte del modelo se ejecuta por solicitud, un sistema MoE puede responder más rápido y más barato que un modelo denso del mismo tamaño total. Esta es una gran razón por la que el enfoque se ha extendido por toda la industria. Permite a los desarrolladores seguir aumentando la capacidad sin que los costes de funcionamiento se disparen.

Sin embargo, hay una trampa que vale la pena mencionar desde el principio. Si bien MoE ahorra en computación, no ahorra en memoria. Cada experto debe cargarse y estar listo, incluso los que están inactivos, porque nunca se sabe a cuál convocará el enrutador a continuación. Eso significa que estos modelos pueden requerir mucha memoria de gama alta para funcionar, lo que tiene consecuencias reales sobre dónde pueden residir. Cualquiera que esté considerando ejecutar modelos de IA localmente en lugar de en la nube se encuentra rápidamente con esta compensación.

Gran cerebro, pequeña factura

La activación dispersa permite que un modelo contenga un vasto conocimiento manteniendo el trabajo realizado por solicitud cerca del de un sistema mucho más pequeño.

Fuente: Google Research

Los desafíos que nadie pone en el folleto

La mezcla de expertos es poderosa, pero no es magia, y trae sus propios problemas incómodos. El primero es el equilibrio. Si el enrutador se vuelve perezoso y sigue enviando la mayor parte del trabajo a los mismos dos o tres expertos favoritos, el resto se desperdicia y el modelo se encoge efectivamente. Los equipos de entrenamiento tienen que empujar al sistema para que distribuya la carga de manera uniforme, un poco como un gerente que se asegura de que ningún miembro del equipo esté abrumado mientras otros están inactivos.

El segundo desafío es que un tamaño total mayor significa una mayor huella de memoria y almacenamiento. Un modelo de mezcla de expertos con un número enorme de expertos podría ser barato de ejecutar por consulta, pero pesado de alojar. Esto tiene implicaciones para el tipo de infraestructura que necesitas, y es uno de los costos ocultos de las herramientas de IA que sorprende a las personas que solo miraron el precio principal.

El enrutamiento puede ser impredecible

También hay un problema más sutil. Debido a que el enrutador decide sobre la marcha qué expertos usar, dos solicitudes muy similares pueden ocasionalmente tomar diferentes rutas internas y producir resultados ligeramente diferentes. Para la mayoría de los usos cotidianos esto es invisible, pero para aplicaciones que exigen una consistencia estricta, es algo que los ingenieros tienen en cuenta.

Dónde aparece la mezcla de expertos

Es casi seguro que has utilizado un modelo MoE sin saberlo. Muchos de los sistemas de IA más grandes y capaces disponibles hoy en día utilizan esta arquitectura bajo el capó precisamente porque es la forma más práctica de combinar una enorme capacidad con costes de funcionamiento manejables. El enfoque se sitúa dentro de la familia más amplia de modelos fundamentales, los grandes sistemas de propósito general que impulsan la mayoría de las herramientas de IA modernas.

También es un ajuste natural para los grandes sistemas de chat y razonamiento de propósito general que a menudo se describen como modelos de lenguaje grandes. Cuando un solo sistema tiene que manejar solicitudes muy diferentes, desde poesía hasta programación, tener una lista de especialistas a los que recurrir es una forma sensata de mantener la alta calidad sin ejecutar todo a plena potencia cada vez.

¿Alguna de estas cosas afecta tus decisiones?

Si estás eligiendo una herramienta de IA para tu equipo en lugar de construir una, no necesitas preocuparte por la arquitectura en sí. Lo que importa es el resultado: velocidad, costo, precisión y si la herramienta se adapta a tus necesidades. La arquitectura es un medio para esos fines. Nuestra guía para elegir el modelo de IA adecuado se centra en esas señales prácticas en lugar de la ingeniería interna.

Dicho esto, comprender la idea te ayuda a leer las afirmaciones de los productos de manera más crítica. Cuando un proveedor presume de una enorme cantidad de parámetros, saber sobre la activación dispersa te dice que el tamaño bruto no es toda la historia. Un modelo denso más pequeño a veces puede superar a uno disperso mucho más grande en las tareas que te importan. El mismo escepticismo se aplica a si lo más grande significa mejor en absoluto, y a cómo decisiones como esta repercuten en el retorno de la inversión de tu automatización con el tiempo.

Si deseas ayuda para entender la jerga y encontrar el enfoque adecuado para tus propios objetivos, siempre puedes ponerte en contacto y conversarlo.

Preguntas frecuentes

¿Un modelo de mezcla de expertos da mejores respuestas que uno normal?+

No automáticamente. La arquitectura se centra principalmente en la eficiencia, permitiendo que un modelo contenga más conocimiento sin mayores costes de ejecución por solicitud. La calidad depende de lo bien que se haya entrenado el modelo y de lo bien que se adapte a tu tarea, no solo del diseño.

¿Son los expertos realmente especialistas separados en temas?+

No de la forma en que podrías imaginar. No están etiquetados por tema. El modelo aprende durante el entrenamiento cómo distribuir diferentes patrones entre sus expertos, y las divisiones a menudo no coinciden con categorías humanas como la cocina o el derecho.

Si solo utiliza unos pocos expertos, ¿por qué necesita tanta memoria?+

Porque cada experto debe estar cargado y listo, incluso los inactivos. El enrutador puede llamar a cualquiera de ellos en cualquier momento, por lo que el conjunto completo tiene que permanecer en la memoria. El ahorro está en la computación por solicitud, no en el almacenamiento.

¿Debo preocuparme por esto al elegir una herramienta de IA?+

Principalmente no. Concéntrate en la velocidad, el costo, la precisión y la adecuación a tus necesidades. Pero entender la idea te ayuda a leer las afirmaciones de marketing con sensatez, especialmente cuando un proveedor se basa en una gran cantidad de parámetros como prueba de calidad.

Referencias

Google Research. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." research.google.
IBM. "What is mixture of experts?" ibm.com.
Stanford HAI. "AI Index Report." hai.stanford.edu.

Regresar al blog

Artículo agregado a tu carrito

Modelos de IA de mezcla de expertos, explicados

El problema que resuelve la mezcla de expertos

Cómo el modelo realmente decide

Qué es realmente un "experto"

Denso versus disperso, lado a lado

Por qué esto importa para el costo y la velocidad

Los desafíos que nadie pone en el folleto

El enrutamiento puede ser impredecible

Dónde aparece la mezcla de expertos

¿Alguna de estas cosas afecta tus decisiones?

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.

País/región

Idioma

El problema que resuelve la mezcla de expertos

Cómo el modelo realmente decide

Qué es realmente un "experto"

Denso versus disperso, lado a lado

Por qué esto importa para el costo y la velocidad

Los desafíos que nadie pone en el folleto

El enrutamiento puede ser impredecible

Dónde aparece la mezcla de expertos

¿Alguna de estas cosas afecta tus decisiones?

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.