Destilación de modelos: haciendo la IA más pequeña y barata

Jazmie Jamaludin

Piense en la persona con más experiencia con la que haya trabajado. El tipo de colega que ha visto todos los problemas dos veces y puede resolverlos mientras duerme. Ahora imagine a esa persona dedicando unos meses a capacitar a un aprendiz brillante y entusiasta, transmitiendo no solo las respuestas, sino también los instintos y los atajos que las sustentan. El aprendiz nunca sabrá tanto como el maestro, pero terminará siendo más rápido, más barato de mantener y lo suficientemente bueno para casi todo lo que se le presente. Eso, más o menos, es lo que ocurre cuando los ingenieros destilan un modelo de IA.

La destilación de modelos es una de las ideas más prácticas de la inteligencia artificial moderna, y explica una tendencia discreta que quizás haya notado: las herramientas de IA se están volviendo más rápidas y baratas sin empeorar de forma evidente. En esta guía, explicaremos qué es la destilación, cómo funciona realmente el aprendizaje, por qué las empresas se molestan, qué se pierde en el camino y qué significa para las herramientas que usa a diario. No se requiere experiencia en ingeniería.

El problema del modelo grande

Los sistemas de IA más capaces de la actualidad son enormes. Contienen miles de millones de configuraciones internas y exigen una gran potencia informática para funcionar. Esa potencia no es gratuita. Cada respuesta que produce un modelo gigante consume energía, tiempo y dinero, un costo operativo que la industria llama inferencia. Si alguna vez se preguntó de dónde vienen las facturas, nuestro artículo sobre la comprensión de los costos de inferencia de IA lo desglosa claramente.

Sin embargo, para muchos trabajos del mundo real, toda esa potencia de fuego es excesiva. Clasificar correos electrónicos de soporte, etiquetar reseñas de productos o responder preguntas comunes de los clientes no necesita un modelo que también pueda escribir sonetos y debatir filosofía. Se necesita algo preciso, rápido y asequible. Esta es exactamente la brecha que exploran los modelos de IA pequeños versus grandes, y la destilación es una de las formas más inteligentes de cerrarla.

La mayor parte de la inteligencia, una fracción del tamaño

Un modelo bien destilado puede ser muchas veces más pequeño que su maestro, manteniendo la mayor parte de su precisión útil en las tareas importantes.

Fuente: Investigación original sobre destilación de conocimiento, Hinton et al.

Maestro y alumno

La destilación siempre implica dos modelos: un "maestro" grande y capaz y un "estudiante" más pequeño. El objetivo es transferir la mayor parte posible de la habilidad del maestro al estudiante, para que el estudiante pueda realizar el trabajo solo después. El maestro se retira de esa tarea particular, habiendo cumplido su propósito.

Aquí está la parte que sorprende a la gente. El estudiante no solo aprende de una lista de respuestas correctas. Aprende de cómo piensa el maestro. Cuando el modelo grande responde una pregunta, no simplemente elige una opción; produce una gama completa de confianza en todas las posibilidades, inclinándose fuertemente hacia algunas y suavemente hacia otras. Esa señal más rica, la vacilación y la certeza del maestro, contiene mucha más información que una simple etiqueta de correcto o incorrecto.

Aprendiendo los matices de gris

Imagine enseñarle a alguien a reconocer razas de perros. Una hoja de respuestas simple solo dice "esto es un husky". Pero un experto experimentado agrega matices: "esto es principalmente husky, con un toque de malamute, y definitivamente no es un caniche". Esos matices de gris ayudan al estudiante a desarrollar un sentido mucho mejor del territorio de lo que una etiqueta plana podría lograr. Al copiar los niveles de confianza matizados del maestro en lugar de solo su elección final, el estudiante absorbe una comprensión más rica de los mismos ejemplos. Es por eso que la destilación surgió de la historia más amplia de cómo se entrenan los modelos de IA, y por qué puede ser mucho más efectiva que entrenar un modelo pequeño desde cero.

Por qué las empresas invierten en ello

La motivación es abrumadoramente práctica. Un modelo más pequeño es más barato de ejecutar, responde más rápido y puede caber en lugares donde un gigante nunca podría, como un teléfono o un servidor modesto. Para una empresa que atiende miles de solicitudes al día, los ahorros se acumulan rápidamente. La misma respuesta a la décima parte del costo, entregada en una fracción del tiempo, es una ventaja comercial seria.

La velocidad importa tanto como el dinero. Los usuarios abandonan las herramientas lentas. Un modelo destilado que responde casi instantáneamente se siente mejor de usar que un gigante brillante pero lento, incluso si el gigante es marginalmente más preciso. Para productos interactivos, esa capacidad de respuesta puede valer más que los últimos puntos porcentuales de calidad.

Modelo maestro versus estudiante destilado, en términos cotidianos
Lo que notas	Maestro grande	Estudiante destilado
Costo operativo	Alto	Mucho más bajo
Velocidad de respuesta	Más lento	Más rápido, a menudo instantáneo
Amplitud de habilidad	Muy amplia	Más estrecha, enfocada
Dónde puede ejecutarse	Servidores potentes	Teléfonos, hardware modesto
Lo mejor para	Tareas difíciles y variadas	Tareas específicas y repetidas

Lo que se pierde en la traducción

La destilación es un intercambio, no un almuerzo gratis. El estudiante es más pequeño, por lo que simplemente no puede retener todo lo que el maestro sabía. En la tarea específica para la que fue entrenado, puede acercarse impresionantemente. Pero si se le saca de esa zona de confort, ante solicitudes inusuales o inesperadas, la brecha se hace evidente. El aprendiz es excelente en el trabajo diario y más inestable en las situaciones difíciles.

También existe un riesgo más sutil. Si el maestro tenía un punto ciego o un mal hábito, el estudiante puede heredarlo fielmente. La destilación copia el comportamiento, defectos incluidos. Un maestro que ocasionalmente inventa hechos puede transmitir esa tendencia, lo cual es una razón más para mantener una supervisión humana sobre los resultados. Si desea comprender por qué estos sistemas inventan cosas en primer lugar, nuestra explicación sobre por qué los modelos de IA alucinan es una lectura complementaria útil, y se combina naturalmente con la reflexión sobre los costos ocultos de las herramientas de IA más allá del precio de etiqueta.

Excelente en el trabajo diario

Los modelos destilados tienden a destacarse en las tareas específicas para las que fueron entrenados y tambalean en las desconocidas.

Fuente: Guía de IA del NIST

Destilación frente a otros trucos de reducción

La destilación no es la única forma de hacer que la IA sea más pequeña y barata. Los ingenieros también utilizan técnicas como la cuantificación, que recorta la precisión de los números internos de un modelo para reducirlo. Los dos enfoques a menudo se combinan: se destila un modelo a un tamaño más pequeño y luego se cuantifica para reducirlo aún más. Cada uno aborda el problema del tamaño desde un ángulo diferente.

Vale la pena señalar cómo la destilación se relaciona con otras formas de adaptar la IA. No es lo mismo que el ajuste fino (fine-tuning), que ajusta el comportamiento de un modelo existente en nuevos ejemplos, y no es la recuperación, que alimenta al modelo con información fresca en el momento de la pregunta. La destilación consiste en transferir la habilidad aprendida de un maestro a un cuerpo completamente nuevo y más pequeño. Comprender estas distinciones ayuda cuando se evalúa el modelo de IA adecuado para su negocio.

Por qué es importante para las herramientas que utilizas

Casi con toda seguridad ya utilizas modelos destilados. Cuando una empresa ofrece una versión "lite", "mini" o "rápida" de su IA insignia, la destilación suele ser parte de cómo se creó esa versión más pequeña. No son juguetes inutilizables; están construidos deliberadamente para ofrecer la mayor parte del valor a una fracción del costo, lo que es precisamente lo que hace posible un acceso amplio y asequible a la IA.

También hay un aspecto de privacidad. Los modelos destilados más pequeños a veces pueden ejecutarse más cerca de donde residen tus datos, incluso en tus propios dispositivos, en lugar de enviar todo a un servidor distante. Eso tiene implicaciones reales para la IA y la privacidad de los datos, y se conecta con la cuestión más amplia de ejecutar modelos de IA localmente en lugar de siempre recurrir a la nube.

¿Debería importarte qué enfoque utilizó tu proveedor?

Para la mayoría de los equipos, la respuesta honesta es no. Lo que importa es si la herramienta es lo suficientemente precisa, rápida y asequible para el trabajo. La destilación es un medio para esos fines, no un fin en sí misma. Un modelo destilado más pequeño que se ajusta a tu caso de uso específico es mejor que un gigante que es más lento y más caro de lo que necesitas.

Aun así, conocer la idea te convierte en un comprador más astuto. Cuando un proveedor anuncia un nivel más barato, puedes hacer la pregunta correcta: ¿esta versión sigue siendo sólida para las tareas que realmente me importan, o solo para una pequeña parte? El mismo escepticismo que te es útil en toda la familia de modelos fundacionales se aplica aquí. Si deseas ayuda para determinar qué nivel se ajusta a tus objetivos y presupuesto, puedes ponerte en contacto.

Preguntas frecuentes

¿Es un modelo destilado simplemente una versión peor del original?+

Es más pequeño y menos capaz en general, pero en la tarea específica para la que fue destilado puede acercarse mucho al maestro. Piense en ello como más enfocado en lugar de simplemente peor. Intercambia amplitud por velocidad y costo.

¿En qué se diferencia la destilación del ajuste fino?+

El ajuste fino adapta el comportamiento de un modelo existente utilizando nuevos ejemplos. La destilación transfiere la habilidad aprendida de un modelo grande a un modelo más pequeño y completamente nuevo. Uno remodela un modelo que ya tienes; el otro crea una copia más eficiente de uno.

¿Puede un modelo destilado heredar los errores del maestro?+

Sí. Debido a que el estudiante copia el comportamiento del maestro, cualquier punto ciego o mal hábito puede transmitirse. Esta es una razón por la que sigue siendo prudente mantener la revisión humana, especialmente para decisiones importantes.

¿Necesito un modelo destilado o simplemente uno pequeño?+

Para la mayoría de los compradores, la etiqueta importa menos que el resultado. Lo que cuenta es si la herramienta es precisa, rápida y asequible para su tarea. La destilación es simplemente una buena forma de producir un modelo pequeño que rinde por encima de su peso.

Referencias

Hinton, G. et al. "Distilling the Knowledge in a Neural Network." research.google.
IBM. "¿Qué es la destilación de conocimiento?" ibm.com.
NIST. "Marco de gestión de riesgos de IA". nist.gov.

Regresar al blog

Artículo agregado a tu carrito

Destilación de modelos: haciendo la IA más pequeña y barata

El problema del modelo grande

Maestro y alumno

Aprendiendo los matices de gris

Por qué las empresas invierten en ello

Lo que se pierde en la traducción

Destilación frente a otros trucos de reducción

Por qué es importante para las herramientas que utilizas

¿Debería importarte qué enfoque utilizó tu proveedor?

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.

País/región

Idioma

El problema del modelo grande

Maestro y alumno

Aprendiendo los matices de gris

Por qué las empresas invierten en ello

Lo que se pierde en la traducción

Destilación frente a otros trucos de reducción

Por qué es importante para las herramientas que utilizas

¿Debería importarte qué enfoque utilizó tu proveedor?

Preguntas frecuentes

Referencias

AUTOMATICE. OPTIMICE. DOMINE.