Memoria y contexto: que el agente no olvide
Los 3 niveles de memoria en agentes de IA — memoria de trabajo, episódica y semántica. RAG, bases vectoriales y cómo evitar que el agente olvide información crítica.
Contenido de Curso Premium
Esta lección es parte de un curso premium. Mejora a Pro para desbloquear todos los cursos premium y su contenido.
- Acceso a todos los cursos premium
- Más de 1000 plantillas de skills de IA incluidas
- Contenido nuevo cada semana
🔄 En la lección 4 vimos cómo las herramientas le dan “brazos” al agente. Pero sin memoria, cada interacción empieza de cero. Le preguntas algo hoy y mañana no recuerda nada.
El problema de la memoria
Imagina un agente de atención al cliente. Un cliente escribe: “Soy el mismo que llamó ayer por el pedido #4521.”
Sin memoria, el agente responde: “No tengo información sobre interacciones anteriores. ¿Me puedes repetir tu consulta?”
Con memoria: “Veo que ayer consultaste el estado del pedido #4521. Ya fue entregado esta mañana. ¿Necesitas algo más?”
La diferencia entre un agente útil y uno frustrante es la memoria.
Los 3 niveles
1. Memoria de trabajo — Lo que tiene en mente ahora
Es la ventana de contexto del modelo. Todo lo que el agente “ve” en este momento: la conversación actual, las instrucciones del sistema, los resultados de herramientas.
┌─────────────────────────────────────┐
│ Ventana de contexto │
│ ┌─────────────────────────────┐ │
│ │ Instrucciones del sistema │ │
│ │ Mensajes del usuario │ │
│ │ Respuestas del agente │ │
│ │ Resultados de herramientas │ │
│ └─────────────────────────────┘ │
│ 128K - 200K tokens │
└─────────────────────────────────────┘
Límite: Los modelos actuales tienen ventanas de 128K-200K tokens. Suena mucho, pero se llena rápido cuando el agente procesa documentos largos o tiene conversaciones extensas.
Cuando se llena: Los mensajes más antiguos se eliminan o comprimen. El agente literalmente “olvida” el inicio de la conversación.
2. Memoria episódica — Lo que pasó antes
Registros de interacciones pasadas. “La última vez que este cliente contactó, fue por un reembolso. Prefiere respuestas por WhatsApp.”
┌─────────────────────────────────────┐
│ Memoria episódica │
│ Sesión 1: Cliente pidió estado │
│ Sesión 2: Cliente solicitó factura │
│ Sesión 3: Cliente pidió devolución │
│ → Patrón: cliente frecuente, │
│ prefiere resolución rápida │
└─────────────────────────────────────┘
Cómo funciona: Al inicio de cada sesión, el sistema busca interacciones previas del usuario y las inyecta en el contexto. Puede ser tan simple como un resumen de texto o tan sofisticado como un perfil completo del usuario.
Frameworks: Mem0 y Zep son herramientas populares para memoria persistente entre sesiones.
✅ Quick Check: ¿Cuál es la diferencia entre memoria de trabajo y episódica? (La de trabajo es el contexto inmediato — lo que el agente “ve” ahora. La episódica es un registro externo de interacciones pasadas que se inyecta al inicio de cada sesión.)
3. Memoria semántica — Lo que la empresa sabe
Información factual que el modelo no tiene en sus datos de entrenamiento: políticas internas, catálogos de productos, manuales técnicos, contratos.
Se accede mediante RAG (Retrieval-Augmented Generation).
RAG: cómo funciona
RAG conecta al agente con una base de conocimiento externa. El flujo:
1. Pregunta: "¿Cuál es la política de devoluciones para México?"
2. Búsqueda: El sistema convierte la pregunta en un vector (embedding)
y busca los documentos más similares en la base vectorial
3. Recuperación: Encuentra 3 fragmentos relevantes del documento
"Políticas de Devolución LATAM v2.3"
4. Inyección: Inserta los fragmentos en el contexto del modelo:
"Según el documento de políticas:
- México: 30 días para devoluciones
- Requiere factura original
- Reembolso en 5-10 días hábiles"
5. Generación: El modelo responde usando los datos reales,
no su conocimiento general
Sin RAG: El agente inventa una respuesta plausible (alucinación). Con RAG: El agente cita datos verificables de tus documentos.
Bases de datos vectoriales
Para que RAG funcione, necesitas una base de datos que entienda significado, no solo palabras exactas. Eso son las bases vectoriales.
| Base vectorial | Tipo | Popular para |
|---|---|---|
| Pinecone | Cloud | Producción empresarial |
| Qdrant | Open source | Auto-hosting |
| pgvector | Extensión PostgreSQL | Si ya usas PostgreSQL |
| ChromaDB | Open source | Prototipado rápido |
| Weaviate | Open source/Cloud | Búsqueda semántica avanzada |
Cómo se almacenan los documentos:
- El documento se divide en fragmentos (chunks) de 200-500 tokens
- Cada fragmento se convierte en un vector (embedding) de números
- Los vectores se indexan para búsqueda rápida por similitud
Cuando el agente pregunta algo, su pregunta también se convierte en un vector y se buscan los fragmentos más “cercanos” en significado.
✅ Quick Check: ¿Por qué usamos una base de datos vectorial en vez de una búsqueda SQL normal? (Porque la búsqueda vectorial entiende significado semántico. “¿Puedo devolver un producto?” y “política de devoluciones” son semánticamente similares aunque no comparten palabras exactas. SQL busca coincidencias literales.)
Cuándo usar cada nivel
| Nivel | Cuándo usarlo | Ejemplo |
|---|---|---|
| Trabajo | Siempre — es automático | La conversación actual |
| Episódica | Cuando necesitas continuidad entre sesiones | Historial de un cliente, preferencias |
| Semántica (RAG) | Cuando el agente necesita información interna de la empresa | Políticas, manuales, catálogos |
Para un MVP, la memoria de trabajo es suficiente. Cuando el agente necesite “recordar” entre sesiones, añade episódica. Cuando necesite conocimiento que el modelo no tiene, añade RAG.
Puntos clave
- Memoria de trabajo = ventana de contexto actual (128K-200K tokens, se llena)
- Memoria episódica = registros de sesiones pasadas (continuidad entre interacciones)
- Memoria semántica = base de conocimiento con RAG (información interna de la empresa)
- RAG: pregunta → buscar fragmentos relevantes → inyectar en contexto → generar respuesta
- Bases vectoriales (Pinecone, pgvector, ChromaDB) buscan por significado, no por palabras exactas
- Empieza simple: memoria de trabajo → episódica → RAG según necesidad
Siguiente lección
Un agente solo puede ser muy capaz. Pero algunas tareas necesitan especialistas. En la lección 6 vamos a sistemas multi-agente: cuándo y cómo coordinar varios agentes trabajando juntos.
Comprobación de Conocimientos
Primero completa el quiz de arriba
¡Lección completada!