Destilación de modelos: haciendo la IA más pequeña y barata
Jazmie JamaludinPiense en la persona con más experiencia con la que haya trabajado. El tipo de colega que ha visto todos los problemas dos veces y puede resolverlos mientras duerme. Ahora imagine a esa persona dedicando unos meses a capacitar a un aprendiz brillante y entusiasta, transmitiendo no solo las respuestas, sino también los instintos y los atajos que las sustentan. El aprendiz nunca sabrá tanto como el maestro, pero terminará siendo más rápido, más barato de mantener y lo suficientemente bueno para casi todo lo que se le presente. Eso, más o menos, es lo que ocurre cuando los ingenieros destilan un modelo de IA.
La destilación de modelos es una de las ideas más prácticas de la inteligencia artificial moderna, y explica una tendencia discreta que quizás haya notado: las herramientas de IA se están volviendo más rápidas y baratas sin empeorar de forma evidente. En esta guía, explicaremos qué es la destilación, cómo funciona realmente el aprendizaje, por qué las empresas se molestan, qué se pierde en el camino y qué significa para las herramientas que usa a diario. No se requiere experiencia en ingeniería.
El problema del modelo grande
Los sistemas de IA más capaces de la actualidad son enormes. Contienen miles de millones de configuraciones internas y exigen una gran potencia informática para funcionar. Esa potencia no es gratuita. Cada respuesta que produce un modelo gigante consume energía, tiempo y dinero, un costo operativo que la industria llama inferencia. Si alguna vez se preguntó de dónde vienen las facturas, nuestro artículo sobre la comprensión de los costos de inferencia de IA lo desglosa claramente.
Sin embargo, para muchos trabajos del mundo real, toda esa potencia de fuego es excesiva. Clasificar correos electrónicos de soporte, etiquetar reseñas de productos o responder preguntas comunes de los clientes no necesita un modelo que también pueda escribir sonetos y debatir filosofía. Se necesita algo preciso, rápido y asequible. Esta es exactamente la brecha que exploran los modelos de IA pequeños versus grandes, y la destilación es una de las formas más inteligentes de cerrarla.
Maestro y alumno
La destilación siempre implica dos modelos: un "maestro" grande y capaz y un "estudiante" más pequeño. El objetivo es transferir la mayor parte posible de la habilidad del maestro al estudiante, para que el estudiante pueda realizar el trabajo solo después. El maestro se retira de esa tarea particular, habiendo cumplido su propósito.
Aquí está la parte que sorprende a la gente. El estudiante no solo aprende de una lista de respuestas correctas. Aprende de cómo piensa el maestro. Cuando el modelo grande responde una pregunta, no simplemente elige una opción; produce una gama completa de confianza en todas las posibilidades, inclinándose fuertemente hacia algunas y suavemente hacia otras. Esa señal más rica, la vacilación y la certeza del maestro, contiene mucha más información que una simple etiqueta de correcto o incorrecto.
Aprendiendo los matices de gris
Imagine enseñarle a alguien a reconocer razas de perros. Una hoja de respuestas simple solo dice "esto es un husky". Pero un experto experimentado agrega matices: "esto es principalmente husky, con un toque de malamute, y definitivamente no es un caniche". Esos matices de gris ayudan al estudiante a desarrollar un sentido mucho mejor del territorio de lo que una etiqueta plana podría lograr. Al copiar los niveles de confianza matizados del maestro en lugar de solo su elección final, el estudiante absorbe una comprensión más rica de los mismos ejemplos. Es por eso que la destilación surgió de la historia más amplia de cómo se entrenan los modelos de IA, y por qué puede ser mucho más efectiva que entrenar un modelo pequeño desde cero.
Por qué las empresas invierten en ello
La motivación es abrumadoramente práctica. Un modelo más pequeño es más barato de ejecutar, responde más rápido y puede caber en lugares donde un gigante nunca podría, como un teléfono o un servidor modesto. Para una empresa que atiende miles de solicitudes al día, los ahorros se acumulan rápidamente. La misma respuesta a la décima parte del costo, entregada en una fracción del tiempo, es una ventaja comercial seria.
La velocidad importa tanto como el dinero. Los usuarios abandonan las herramientas lentas. Un modelo destilado que responde casi instantáneamente se siente mejor de usar que un gigante brillante pero lento, incluso si el gigante es marginalmente más preciso. Para productos interactivos, esa capacidad de respuesta puede valer más que los últimos puntos porcentuales de calidad.
| Lo que notas | Maestro grande | Estudiante destilado |
|---|---|---|
| Costo operativo | Alto | Mucho más bajo |
| Velocidad de respuesta | Más lento | Más rápido, a menudo instantáneo |
| Amplitud de habilidad | Muy amplia | Más estrecha, enfocada |
| Dónde puede ejecutarse | Servidores potentes | Teléfonos, hardware modesto |
| Lo mejor para | Tareas difíciles y variadas | Tareas específicas y repetidas |
Lo que se pierde en la traducción
La destilación es un intercambio, no un almuerzo gratis. El estudiante es más pequeño, por lo que simplemente no puede retener todo lo que el maestro sabía. En la tarea específica para la que fue entrenado, puede acercarse impresionantemente. Pero si se le saca de esa zona de confort, ante solicitudes inusuales o inesperadas, la brecha se hace evidente. El aprendiz es excelente en el trabajo diario y más inestable en las situaciones difíciles.
También existe un riesgo más sutil. Si el maestro tenía un punto ciego o un mal hábito, el estudiante puede heredarlo fielmente. La destilación copia el comportamiento, defectos incluidos. Un maestro que ocasionalmente inventa hechos puede transmitir esa tendencia, lo cual es una razón más para mantener una supervisión humana sobre los resultados. Si desea comprender por qué estos sistemas inventan cosas en primer lugar, nuestra explicación sobre por qué los modelos de IA alucinan es una lectura complementaria útil, y se combina naturalmente con la reflexión sobre los costos ocultos de las herramientas de IA más allá del precio de etiqueta.
Destilación frente a otros trucos de reducción
La destilación no es la única forma de hacer que la IA sea más pequeña y barata. Los ingenieros también utilizan técnicas como la cuantificación, que recorta la precisión de los números internos de un modelo para reducirlo. Los dos enfoques a menudo se combinan: se destila un modelo a un tamaño más pequeño y luego se cuantifica para reducirlo aún más. Cada uno aborda el problema del tamaño desde un ángulo diferente.
Vale la pena señalar cómo la destilación se relaciona con otras formas de adaptar la IA. No es lo mismo que el ajuste fino (fine-tuning), que ajusta el comportamiento de un modelo existente en nuevos ejemplos, y no es la recuperación, que alimenta al modelo con información fresca en el momento de la pregunta. La destilación consiste en transferir la habilidad aprendida de un maestro a un cuerpo completamente nuevo y más pequeño. Comprender estas distinciones ayuda cuando se evalúa el modelo de IA adecuado para su negocio.
Por qué es importante para las herramientas que utilizas
Casi con toda seguridad ya utilizas modelos destilados. Cuando una empresa ofrece una versión "lite", "mini" o "rápida" de su IA insignia, la destilación suele ser parte de cómo se creó esa versión más pequeña. No son juguetes inutilizables; están construidos deliberadamente para ofrecer la mayor parte del valor a una fracción del costo, lo que es precisamente lo que hace posible un acceso amplio y asequible a la IA.
También hay un aspecto de privacidad. Los modelos destilados más pequeños a veces pueden ejecutarse más cerca de donde residen tus datos, incluso en tus propios dispositivos, en lugar de enviar todo a un servidor distante. Eso tiene implicaciones reales para la IA y la privacidad de los datos, y se conecta con la cuestión más amplia de ejecutar modelos de IA localmente en lugar de siempre recurrir a la nube.
¿Debería importarte qué enfoque utilizó tu proveedor?
Para la mayoría de los equipos, la respuesta honesta es no. Lo que importa es si la herramienta es lo suficientemente precisa, rápida y asequible para el trabajo. La destilación es un medio para esos fines, no un fin en sí misma. Un modelo destilado más pequeño que se ajusta a tu caso de uso específico es mejor que un gigante que es más lento y más caro de lo que necesitas.
Aun así, conocer la idea te convierte en un comprador más astuto. Cuando un proveedor anuncia un nivel más barato, puedes hacer la pregunta correcta: ¿esta versión sigue siendo sólida para las tareas que realmente me importan, o solo para una pequeña parte? El mismo escepticismo que te es útil en toda la familia de modelos fundacionales se aplica aquí. Si deseas ayuda para determinar qué nivel se ajusta a tus objetivos y presupuesto, puedes ponerte en contacto.
Preguntas frecuentes
¿Es un modelo destilado simplemente una versión peor del original?+
¿En qué se diferencia la destilación del ajuste fino?+
¿Puede un modelo destilado heredar los errores del maestro?+
¿Necesito un modelo destilado o simplemente uno pequeño?+
Referencias
- Hinton, G. et al. "Distilling the Knowledge in a Neural Network." research.google.
- IBM. "¿Qué es la destilación de conocimiento?" ibm.com.
- NIST. "Marco de gestión de riesgos de IA". nist.gov.