Una de las frases más comunes al usar inteligencia artificial es:
“Antes sí lo entendía, ahora parece que se ha olvidado”.
Esto no es un fallo aleatorio ni una falta de inteligencia.
La razón está en dos conceptos clave: tokens y context window.
En esta guía explicamos qué son, cómo funcionan y por qué limitan la memoria de una IA.
La IA no tiene memoria como un humano
Un modelo de lenguaje no recuerda conversaciones pasadas como una persona.
Cada respuesta se genera usando solo el contexto que tiene disponible en ese momento.
Ese contexto tiene un límite técnico muy claro.
Qué es un token
Un token es una unidad básica de texto que utiliza la IA para procesar información.
No es exactamente una palabra:
- una palabra corta puede ser 1 token
- una palabra larga puede ser varios
- signos, números y espacios también cuentan
Ejemplo aproximado:
- “IA” → 1 token
- “inteligencia artificial” → varios tokens
Todo lo que la IA:
- lee
- escribe
- recuerda
consume tokens.
Qué es la context window (ventana de contexto)
La context window es el número máximo de tokens que el modelo puede manejar a la vez.
Incluye:
- instrucciones del sistema
- mensajes del usuario
- respuestas anteriores
- la respuesta que va a generar
Cuando se supera ese límite, el modelo empieza a olvidar el inicio de la conversación.
Por qué la IA “olvida” cosas
No es un olvido consciente.
Simplemente:
- el contexto se llena
- los tokens más antiguos salen de la ventana
- el modelo ya no los puede ver
Para la IA, dejan de existir.
Ejemplo sencillo
Imagina una conversación larga donde:
- al principio defines reglas
- luego haces muchas preguntas
Si el contexto se llena:
- las reglas iniciales pueden desaparecer
- el modelo deja de aplicarlas
- el comportamiento cambia
Esto explica muchos resultados inconsistentes.
Relación con system prompts
Los system prompts también consumen tokens.
Si la conversación es muy larga:
- el system prompt puede quedar fuera
- el modelo deja de seguir esas reglas
Por eso, en sistemas reales:
- se reinyecta el system prompt
- se resume el contexto
- se reinicia la conversación
Tokens y alucinaciones
Cuando falta contexto:
- la IA tiene menos información
- intenta completar patrones
- aumenta el riesgo de alucinaciones
Muchas respuestas inventadas ocurren porque el contexto relevante ya no está disponible.
Por qué no se puede “ampliar la memoria sin límite”
El límite no es arbitrario.
Más contexto implica:
- más cálculo
- más coste
- más latencia
Por eso los modelos tienen ventanas finitas, aunque cada generación las hace más grandes.
Cómo se gestiona esto en aplicaciones reales
Las aplicaciones avanzadas usan técnicas como:
- resúmenes automáticos
- context pruning (eliminar lo irrelevante)
- retrieval (RAG) para traer información externa
- dividir tareas en pasos
Así se evita depender de una sola conversación infinita.
Qué puedes hacer como usuario
Buenas prácticas:
- no alargar conversaciones innecesariamente
- repetir instrucciones importantes
- dividir tareas complejas
- empezar chats nuevos cuando cambias de objetivo
No es mala práctica, es uso eficiente del modelo.
Tokens, contexto y coste
Un detalle importante:
- más tokens = más coste computacional
Por eso:
- prompts largos
- contextos gigantes
- respuestas extensas
tienen impacto directo en precio y rendimiento.
Conclusión
La IA no “olvida” porque sea limitada, sino porque trabaja dentro de una ventana de contexto finita.
Entender tokens y context window permite:
- obtener respuestas más consistentes
- reducir errores
- diseñar mejores prompts
- trabajar de forma más profesional con IA
Es uno de los conceptos más importantes para pasar de usuario básico a avanzado.
