Tokens y tokenización en la IA, explicados

Jazmie Jamaludin

Aquí hay un pequeño misterio que confunde a casi todos los que son nuevos en la IA. Le pides a un chatbot que haga algo, y menciona que has usado un cierto número de "tokens". Tu factura, si estás pagando por la herramienta, se mide en tokens. La cantidad de texto que la IA puede manejar a la vez también se cuenta en tokens. Entonces, ¿qué demonios es un token? Suena como una moneda de arcade, pero en realidad es uno de los conceptos más útiles para entender cómo funciona la IA moderna, y una vez que lo entiendes, muchos comportamientos desconcertantes empiezan a tener sentido.

La versión corta: una IA no lee palabras como tú. Antes de que pueda procesar tu texto, lo divide todo en pequeños trozos llamados tokens. Este único paso, conocido como tokenización, moldea silenciosamente cuánto cuestan las cosas, cuánto puede recordar una IA e incluso por qué a veces tropieza con tareas sencillas. En esta guía te explicaremos los tokens en un lenguaje sencillo, te mostraremos por qué son importantes en la práctica y te ayudaremos a trabajar con ellos en lugar de contra ellos.

Qué es realmente un token

Un token es un fragmento de texto, y suele ser más pequeño que una palabra completa. A veces, un token es una palabra corta completa como "gato" o "el". A menudo es un fragmento; las palabras más largas o inusuales se dividen en pedazos. La palabra "increíble", por ejemplo, podría convertirse en "in", "creí" y "ble". Los espacios y la puntuación también cuentan. Una regla general aproximada en inglés es que un token equivale a unos cuatro caracteres, y una palabra típica tiene un poco más de un token en promedio.

¿Por qué no usar simplemente palabras completas? Porque el lenguaje es infinito, nuevas palabras, nombres, errores tipográficos y jerga aparecen todo el tiempo, y ningún diccionario fijo podría cubrirlos. Al dividir el texto en piezas más pequeñas y reutilizables, una IA puede representar absolutamente cualquier texto, incluso palabras que nunca ha visto, ensamblándolas a partir de fragmentos familiares. Es un poco como un puñado de letras puede formar cualquier palabra. Esta división inteligente es lo que permite a los grandes modelos de lenguaje manejar la compleja realidad de la escritura humana.

Tokenización: el paso de la división

La tokenización es simplemente el proceso de dividir el texto en esos tokens antes de que la IA haga algo con ellos. Ocurre instantáneamente e invisiblemente cada vez que envías un mensaje. El modelo nunca ve tu oración como una línea fluida de palabras; ve una lista de piezas numeradas. Todo lo que la IA hace después, todo el emparejamiento de patrones del aprendizaje profundo, sucede en estos tokens, no en el texto sin procesar.

La IA lee en piezas, no en palabras
Antes de procesar cualquier cosa, un modelo divide tu texto en tokens, fragmentos a menudo más pequeños que una palabra, por lo que una sola palabra puede contar como más de un token.
Fuente: Google AI

Por qué los tokens te importan

Los tokens no son solo un detalle técnico, afectan directamente tres cosas que notarás al usar la IA: costo, capacidad y velocidad. Entender esto convierte un medidor confuso en una herramienta con la que realmente puedes planificar.

Cómo los tokens moldean tu experiencia diaria con la IA
Lo que notas Cómo intervienen los tokens Efecto práctico
Costo Las herramientas de pago suelen cobrar por token de entrada y salida Las indicaciones y respuestas más largas cuestan más
Límite de memoria La ventana de contexto se mide en tokens Las entradas muy largas pueden desbordarse y cortarse
Velocidad Las respuestas se generan un token a la vez Las respuestas más largas tardan más en aparecer

La fila central es especialmente importante. La cantidad de texto que una IA puede considerar a la vez, su ventana de contexto, se cuenta en tokens, no en páginas o palabras. Si pegas un documento más largo que la ventana, la parte más antigua simplemente desaparece de la vista, por lo que un chatbot puede "olvidar" el inicio de una conversación muy larga.

Por qué la IA genera texto token por token

Cuando una IA escribe una respuesta, no la compone entera y la entrega. Predice el siguiente token más probable, lo añade, luego predice el siguiente basándose en todo lo anterior, y repite. Por eso a menudo ves las respuestas aparecer palabra por palabra, casi como si la IA estuviera escribiendo. Cada token es una nueva predicción construida sobre el transformador que sopesa todos los tokens anteriores.

Esto explica gran parte del carácter de la IA. Es por eso que las respuestas son fluidas y contextuales, cada token encaja con lo que vino antes. También es por eso que los errores pueden acumularse: si un token temprano envía la respuesta por un camino equivocado, los tokens posteriores se basan en ese mal comienzo. Y debido a que el modelo predice texto plausible en lugar de verificar hechos, ocasionalmente puede producir errores seguros, el fenómeno conocido como alucinación.

Un token a la vez
Una IA construye su respuesta prediciendo el siguiente token, una y otra vez, por lo que el texto fluye gradualmente y por qué un giro equivocado temprano puede desviar toda la respuesta.
Fuente: DeepLearning.AI

Las peculiaridades que explican los tokens

¿Alguna vez le has preguntado a una IA cuántas letras tiene una palabra, o que cuente algo, y la has visto tropezar en una tarea que un niño podría hacer? Los tokens son a menudo los culpables. Debido a que el modelo ve "fresa" como un par de tokens en lugar de nueve letras individuales, las preguntas a nivel de caracteres no le resultan naturales. No es tonta, simplemente nunca mira el texto de la manera que asumías que lo hacía.

La tokenización también explica por qué algunos idiomas cuestan más de procesar que otros. Los idiomas y sistemas de escritura en los que el modelo no fue entrenado intensamente pueden dividirse en muchos más tokens para la misma cantidad de significado, haciéndolos más lentos y costosos de manejar. Y el formato inusual, largas cadenas de números o símbolos raros pueden inflar el recuento de tokens de manera inesperada. Todas estas son consecuencias de cómo los sistemas de aprendizaje automático desglosan el texto antes de que empiecen a razonar.

Trabajando de forma más inteligente con tokens

Puedes usar este conocimiento a tu favor. Si pagas por token, recortar indicaciones divagantes ahorra dinero sin afectar los resultados. Si estás introduciendo un documento largo, resumirlo o dividirlo te ayuda a mantenerte dentro de la ventana de contexto. Y si una IA se pierde constantemente en una conversación maratónica, iniciar un nuevo chat elimina los tokens antiguos que saturan su memoria. Nada de esto requiere habilidades técnicas, solo una conciencia de lo que sucede bajo el capó.

Estos fundamentos también subyacen a los modelos fundacionales amplios y reutilizables que impulsan las herramientas actuales, y se aplican igualmente a los sistemas que manejan imágenes y audio, el mundo de la IA multimodal, donde los píxeles y el sonido se tokenizan a su manera. Para tener una idea honesta de dónde aún se queda corto todo esto, nuestro artículo sobre los límites de la IA completa el panorama.

Una pequeña idea con grandes consecuencias

Los tokens son uno de esos conceptos que, una vez comprendidos, hacen que la IA parezca mucho menos misteriosa. Se sitúan al comienzo de todo lo que hace un modelo, y repercuten en el coste, la capacidad, la velocidad y el comportamiento. Si estás pensando en cómo estas herramientas podrían encajar en flujos de trabajo reales, donde los costes y límites de los tokens se convierten en verdaderas preocupaciones de planificación, nuestra guía para una estrategia de negocio con IA agencial es un siguiente paso útil, y te invitamos a ponerte en contacto para un análisis más detallado.

Preguntas frecuentes

¿Es un token lo mismo que una palabra?+
No exactamente. Un token suele ser un fragmento de una palabra más que una palabra entera. Las palabras cortas y comunes pueden ser un solo token, mientras que las palabras más largas o inusuales se dividen en varias. Como guía aproximada en inglés, una palabra típica equivale a un poco más de un token en promedio.
¿Por qué se me cobra en función de los tokens?+
Porque los tokens son las unidades de trabajo reales que procesa la IA. Tanto el texto que envías como el texto que genera se cuentan, por lo que las indicaciones más largas y las respuestas más largas usan más tokens y cuestan más. Recortar palabras innecesarias es una forma sencilla de mantener el uso eficiente.
¿Por qué las herramientas de IA tienen dificultades para contar letras en una palabra?+
Porque ven el texto como tokens, no como caracteres individuales. Una palabra puede ser uno o dos tokens en lugar de sus letras separadas, por lo que las tareas a nivel de caracteres como contar letras no les resultan naturales. Es un efecto secundario de cómo se divide el texto antes de que el modelo lo lea.
¿Cómo puedo saber cuántos tokens usa mi texto?+
Muchos proveedores de IA ofrecen herramientas de conteo gratuitas que muestran el total de tokens para cualquier texto. Como una estimación mental rápida en inglés, puedes dividir el número de caracteres por aproximadamente cuatro, o asumir un poco más de un token por palabra. Es solo una aproximación, pero muy útil.

Referencias

  1. Google AI. "Tokenization and Language Models." ai.google.
  2. DeepLearning.AI. "How Language Models Process Text." deeplearning.ai.
  3. Stanford HAI. "Foundations of Language Models." hai.stanford.edu.
Regresar al blog

AUTOMATICE. OPTIMICE. DOMINE.

Optimice sus operaciones y ofrezca una experiencia de cliente fluida. Deje que nuestros expertos implementen tecnología de vanguardia y flujos de trabajo optimizados para que pueda concentrarse en lo que mejor sabe hacer.