Tokens y context window: por qué la IA se queda sin memoria

Una de las frases más comunes al usar inteligencia artificial es:

“Antes sí lo entendía, ahora parece que se ha olvidado”.

Esto no es un fallo aleatorio ni una falta de inteligencia.
La razón está en dos conceptos clave: tokens y context window.

En esta guía explicamos qué son, cómo funcionan y por qué limitan la memoria de una IA.

La IA no tiene memoria como un humano

Un modelo de lenguaje no recuerda conversaciones pasadas como una persona.
Cada respuesta se genera usando solo el contexto que tiene disponible en ese momento.

Ese contexto tiene un límite técnico muy claro.

Qué es un token

Un token es una unidad básica de texto que utiliza la IA para procesar información.

No es exactamente una palabra:

una palabra corta puede ser 1 token
una palabra larga puede ser varios
signos, números y espacios también cuentan

Ejemplo aproximado:

“IA” → 1 token
“inteligencia artificial” → varios tokens

Todo lo que la IA:

lee
escribe
recuerda

consume tokens.

Qué es la context window (ventana de contexto)

La context window es el número máximo de tokens que el modelo puede manejar a la vez.

Incluye:

instrucciones del sistema
mensajes del usuario
respuestas anteriores
la respuesta que va a generar

Cuando se supera ese límite, el modelo empieza a olvidar el inicio de la conversación.

Por qué la IA “olvida” cosas

No es un olvido consciente.

Simplemente:

el contexto se llena
los tokens más antiguos salen de la ventana
el modelo ya no los puede ver

Para la IA, dejan de existir.

Ejemplo sencillo

Imagina una conversación larga donde:

al principio defines reglas
luego haces muchas preguntas

Si el contexto se llena:

las reglas iniciales pueden desaparecer
el modelo deja de aplicarlas
el comportamiento cambia

Esto explica muchos resultados inconsistentes.

Relación con system prompts

Los system prompts también consumen tokens.

Si la conversación es muy larga:

el system prompt puede quedar fuera
el modelo deja de seguir esas reglas

Por eso, en sistemas reales:

se reinyecta el system prompt
se resume el contexto
se reinicia la conversación

Tokens y alucinaciones

Cuando falta contexto:

la IA tiene menos información
intenta completar patrones
aumenta el riesgo de alucinaciones

Muchas respuestas inventadas ocurren porque el contexto relevante ya no está disponible.

Por qué no se puede “ampliar la memoria sin límite”

El límite no es arbitrario.

Más contexto implica:

más cálculo
más coste
más latencia

Por eso los modelos tienen ventanas finitas, aunque cada generación las hace más grandes.

Cómo se gestiona esto en aplicaciones reales

Las aplicaciones avanzadas usan técnicas como:

resúmenes automáticos
context pruning (eliminar lo irrelevante)
retrieval (RAG) para traer información externa
dividir tareas en pasos

Así se evita depender de una sola conversación infinita.

Qué puedes hacer como usuario

Buenas prácticas:

no alargar conversaciones innecesariamente
repetir instrucciones importantes
dividir tareas complejas
empezar chats nuevos cuando cambias de objetivo

No es mala práctica, es uso eficiente del modelo.

Tokens, contexto y coste

Un detalle importante:

más tokens = más coste computacional

Por eso:

prompts largos
contextos gigantes
respuestas extensas

tienen impacto directo en precio y rendimiento.

Conclusión

La IA no “olvida” porque sea limitada, sino porque trabaja dentro de una ventana de contexto finita.

Entender tokens y context window permite:

obtener respuestas más consistentes
reducir errores
diseñar mejores prompts
trabajar de forma más profesional con IA

Es uno de los conceptos más importantes para pasar de usuario básico a avanzado.