Cómo los Transformers impulsan la IA moderna

Jazmie Jamaludin

Lea esta frase: "El trofeo no cabía en la maleta porque era demasiado grande". ¿Qué era demasiado grande, el trofeo o la maleta? Usted supo al instante que era el trofeo, porque entendió cómo se relacionan las palabras entre sí. Durante décadas, conseguir que un ordenador hiciera ese tipo de conexión, que captara qué palabras dependen de cuáles, fue dolorosamente difícil. Luego, en 2017, apareció un nuevo diseño que lo descifró, y la IA moderna nunca ha mirado hacia atrás. Se llama transformador.

Si ha utilizado un chatbot, un asistente de escritura con IA o un traductor automático recientemente, ha utilizado un transformador. Es la arquitectura más importante en la IA actual, la "T" en muchos nombres de modelos famosos. Sin embargo, casi nadie fuera del campo puede explicar lo que realmente hace. Esta guía lo soluciona. Explicaremos la gran idea detrás de los transformadores, por qué funciona tan bien y cómo se convirtió en el motor de la era actual de la IA, todo en un lenguaje sencillo.

El problema que resolvieron los transformadores

Antes de los transformadores, la principal forma de procesar el lenguaje era leer palabra por palabra, en orden, como pasar el dedo por una línea de texto. Estas redes neuronales anteriores tenían dos grandes problemas. Primero, eran lentas, porque cada palabra tenía que esperar a la anterior. Segundo, tenían memorias cortas; cuando el sistema llegaba al final de un párrafo largo, a menudo había olvidado la mitad del principio. Eso hacía que entender textos largos y complejos fuera realmente difícil.

El transformador desechó la regla de lectura en orden. En su lugar, mira todas las palabras a la vez y elabora cómo se relaciona cada una con todas las demás. De repente, el sistema pudo ver la frase completa como una red de relaciones en lugar de una calle de sentido único. Ese cambio, de la lectura secuencial a verlo todo junto, es lo que desbloqueó el salto en capacidad. Los transformadores son un tipo de aprendizaje profundo, construidos a partir de las mismas neuronas y capas, solo que dispuestos de una manera más inteligente.

La gran idea: atención

El truco que hace funcionar a los transformadores se llama atención, y el significado cotidiano de la palabra es una buena guía. Cuando usted lee, naturalmente presta más atención a las palabras que importan para entender la actual. En nuestra frase del trofeo, para averiguar a qué se refiere "era", su mente se apoya en "trofeo" y "maleta" en lugar de en "porque". La atención permite que un transformador haga lo mismo: para cada palabra, decide qué otras palabras son más relevantes y se enfoca en ellas.

Imagine que cada palabra levanta la mano y pregunta al resto de la frase: "¿Quién aquí es importante para mí?". Las palabras que más importan obtienen la respuesta más fuerte. El transformador hace esto para cada palabra simultáneamente, construyendo un rico mapa de cómo todo se conecta. Repita esto a través de muchas capas y el sistema desarrolla una profunda comprensión del significado, la gramática y el contexto. No se programan reglas fijas sobre el lenguaje, sino que aprende estas relaciones a partir de ejemplos, el distintivo del aprendizaje automático.

La atención es todo lo que necesitaba
Al permitir que cada palabra considere su relación con todas las demás palabras a la vez, el transformador capturó un contexto que los diseños más antiguos pasaron por alto, y lo hizo mucho más rápido, porque dejó de leer una palabra a la vez.
Fuente: Google AI

Por qué esto superó todo lo anterior

El enfoque de atención tuvo dos enormes ventajas sobre los antiguos sistemas palabra por palabra, y juntos cambiaron la trayectoria de la IA.

Transformadores versus modelos secuenciales antiguos
Aspecto Modelos secuenciales antiguos Transformadores
Orden de lectura Una palabra a la vez, en secuencia Todas las palabras consideradas juntas
Velocidad de entrenamiento Lento, difícil de ejecutar en paralelo Rápido, se adapta perfectamente a los chips modernos
Memoria a largo alcance Se desvanece en pasajes largos Conecta palabras distantes directamente

Esa segunda fila importa más de lo que parece. Debido a que los transformadores procesan todo a la vez, hacen un excelente uso de los potentes chips paralelos que se hicieron disponibles, lo que significó que los investigadores pudieron entrenar modelos mucho más grandes que nunca. La escala, resultó, trajo nuevas habilidades notables. Esta es la base de los grandes modelos de lenguaje que ahora escriben, resumen y conversan, y de los amplios modelos fundamentales construidos sobre el mismo plano.

De las palabras a casi todo

Aunque los transformadores fueron inventados para el lenguaje, su idea central, averiguar cómo cada pieza de entrada se relaciona con todas las demás, resultó ser enormemente general. Los investigadores se dieron cuenta de que se podían introducir fragmentos de una imagen, fragmentos de audio o incluso segmentos de una proteína, y la atención seguiría encontrando las conexiones significativas. Esa flexibilidad es la razón por la que los transformadores ahora impulsan sistemas que manejan imágenes y sonido, así como texto, el ámbito de la IA multimodal.

Un diseño, muchos sentidos
La misma arquitectura que domina el lenguaje ahora también maneja imágenes, audio y más, por lo que el transformador a menudo se denomina el caballo de batalla de la IA moderna.
Fuente: Stanford HAI

Sin embargo, hay un límite práctico. Un transformador solo puede atender a una cierta cantidad de texto a la vez, su ventana de contexto. Todo lo que está dentro de esa ventana puede relacionarse con todo lo demás, lo cual es poderoso, pero también significa que cuanto más texto se incluye, más trabajo hace el sistema. La ampliación de esta ventana es una de las áreas más activas de la investigación de IA en este momento.

Cómo un transformador genera una respuesta

Cuando le pregunta algo a un chatbot, el transformador no planifica una respuesta completa por adelantado. Predice el siguiente pequeño fragmento de texto, luego el siguiente, y luego el siguiente, cada vez usando la atención para sopesar todo lo que ha visto hasta ahora, su pregunta más lo que ya ha escrito. Los fragmentos que maneja se llaman tokens, y al unirlos uno por uno es como aparece un párrafo fluido.

Esta predicción paso a paso explica tanto las fortalezas como las peculiaridades de estos sistemas. Son asombrosamente buenos para producir texto coherente y relevante. Pero debido a que predicen lo que suena plausible en lugar de verificar los hechos, ocasionalmente pueden afirmar algo falso con total confianza, un defecto conocido como alucinación. Saber que predicen en lugar de "saber" le ayuda a usarlos sensatamente.

Potentes, pero aún limitados

Los transformadores son un verdadero avance, sin embargo, no piensan ni entienden de la misma manera que las personas. Reflejan patrones en sus datos de entrenamiento, incluidos sus sesgos, y no tienen un sentido incorporado de la verdad. Para una visión equilibrada de dónde se quedan cortos estos sistemas, nuestro artículo sobre los límites de la IA es un buen complemento para este.

Por qué esto le importa a usted

No necesita construir un transformador para beneficiarse de su comprensión. Saber que la IA moderna funciona prestando atención a las relaciones en el texto, prediciendo un fragmento a la vez, le ayuda a escribir mejores indicaciones, a detectar cuándo una respuesta podría ser poco fiable y a juzgar qué tareas manejan bien estas herramientas. Si está explorando cómo estos sistemas podrían apoyar el trabajo real, nuestra guía para una estrategia de negocio de IA agéntica muestra las aplicaciones prácticas, y siempre puede ponerse en contacto para discutir su propia situación.

Preguntas frecuentes

¿Qué significa realmente el nombre "transformador"?+
Es simplemente el nombre que los investigadores le dieron a la arquitectura cuando la introdujeron. Se refiere a cómo el diseño transforma la entrada en representaciones internas útiles capa por capa. No tiene nada que ver con los transformadores eléctricos o los juguetes, es solo una etiqueta que se mantuvo.
¿Es la atención realmente todo el secreto?+
La atención es la innovación central, pero un transformador también se basa en capas, entrenando en enormes conjuntos de datos y mucha ingeniería a su alrededor. Sin embargo, la atención es lo que hizo que el diseño funcionara donde otros fallaron, por eso se destaca cuando la gente explica cómo piensan los transformadores.
¿Los transformadores solo funcionan con texto?+
No. Fueron inventados para el lenguaje, pero el mismo enfoque ahora maneja imágenes, audio, video y otros datos. Se divide la entrada en piezas y se deja que la atención encuentre las relaciones. Esta versatilidad es una gran razón por la que los transformadores se convirtieron en el diseño dominante en tantas áreas de la IA.
¿Por qué un transformador no puede recordar un documento largo entero?+
Solo puede atender a una cantidad fija de texto a la vez, lo que se denomina su ventana de contexto. Más allá de ese límite, el texto más antiguo desaparece de la vista. Las ventanas más grandes son posibles pero requieren más potencia de cálculo, por lo que hay una compensación práctica, y estirar este límite es un enfoque de investigación activo.

Referencias

  1. Google AI. "Transformer Architecture and Attention." ai.google.
  2. Stanford HAI. "Foundation Models and Transformers." hai.stanford.edu.
  3. DeepLearning.AI. "How Transformers Work." deeplearning.ai.
Regresar al blog

AUTOMATICE. OPTIMICE. DOMINE.

Optimice sus operaciones y ofrezca una experiencia de cliente fluida. Deje que nuestros expertos implementen tecnología de vanguardia y flujos de trabajo optimizados para que pueda concentrarse en lo que mejor sabe hacer.