Lección 5 15 min

Memoria y contexto: que el agente no olvide

Los 3 niveles de memoria en agentes de IA — memoria de trabajo, episódica y semántica. RAG, bases vectoriales y cómo evitar que el agente olvide información crítica.

Contenido de Curso Premium

Esta lección es parte de un curso premium. Mejora a Pro para desbloquear todos los cursos premium y su contenido.

Acceso a todos los cursos premium
Más de 1000 plantillas de skills de IA incluidas
Contenido nuevo cada semana

← Volver al curso

🔄 En la lección 4 vimos cómo las herramientas le dan “brazos” al agente. Pero sin memoria, cada interacción empieza de cero. Le preguntas algo hoy y mañana no recuerda nada.

El problema de la memoria

Imagina un agente de atención al cliente. Un cliente escribe: “Soy el mismo que llamó ayer por el pedido #4521.”

Sin memoria, el agente responde: “No tengo información sobre interacciones anteriores. ¿Me puedes repetir tu consulta?”

Con memoria: “Veo que ayer consultaste el estado del pedido #4521. Ya fue entregado esta mañana. ¿Necesitas algo más?”

La diferencia entre un agente útil y uno frustrante es la memoria.

Los 3 niveles

1. Memoria de trabajo — Lo que tiene en mente ahora

Es la ventana de contexto del modelo. Todo lo que el agente “ve” en este momento: la conversación actual, las instrucciones del sistema, los resultados de herramientas.

┌─────────────────────────────────────┐
│         Ventana de contexto         │
│  ┌─────────────────────────────┐   │
│  │ Instrucciones del sistema   │   │
│  │ Mensajes del usuario        │   │
│  │ Respuestas del agente       │   │
│  │ Resultados de herramientas  │   │
│  └─────────────────────────────┘   │
│         128K - 200K tokens          │
└─────────────────────────────────────┘

Límite: Los modelos actuales tienen ventanas de 128K-200K tokens. Suena mucho, pero se llena rápido cuando el agente procesa documentos largos o tiene conversaciones extensas.

Cuando se llena: Los mensajes más antiguos se eliminan o comprimen. El agente literalmente “olvida” el inicio de la conversación.

2. Memoria episódica — Lo que pasó antes

Registros de interacciones pasadas. “La última vez que este cliente contactó, fue por un reembolso. Prefiere respuestas por WhatsApp.”

┌─────────────────────────────────────┐
│      Memoria episódica              │
│  Sesión 1: Cliente pidió estado     │
│  Sesión 2: Cliente solicitó factura │
│  Sesión 3: Cliente pidió devolución │
│  → Patrón: cliente frecuente,       │
│    prefiere resolución rápida       │
└─────────────────────────────────────┘

Cómo funciona: Al inicio de cada sesión, el sistema busca interacciones previas del usuario y las inyecta en el contexto. Puede ser tan simple como un resumen de texto o tan sofisticado como un perfil completo del usuario.

Frameworks: Mem0 y Zep son herramientas populares para memoria persistente entre sesiones.

✅ Quick Check: ¿Cuál es la diferencia entre memoria de trabajo y episódica? (La de trabajo es el contexto inmediato — lo que el agente “ve” ahora. La episódica es un registro externo de interacciones pasadas que se inyecta al inicio de cada sesión.)

3. Memoria semántica — Lo que la empresa sabe

Información factual que el modelo no tiene en sus datos de entrenamiento: políticas internas, catálogos de productos, manuales técnicos, contratos.

Se accede mediante RAG (Retrieval-Augmented Generation).

RAG: cómo funciona

RAG conecta al agente con una base de conocimiento externa. El flujo:

1. Pregunta: "¿Cuál es la política de devoluciones para México?"

2. Búsqueda: El sistema convierte la pregunta en un vector (embedding)
   y busca los documentos más similares en la base vectorial

3. Recuperación: Encuentra 3 fragmentos relevantes del documento
   "Políticas de Devolución LATAM v2.3"

4. Inyección: Inserta los fragmentos en el contexto del modelo:
   "Según el documento de políticas:
    - México: 30 días para devoluciones
    - Requiere factura original
    - Reembolso en 5-10 días hábiles"

5. Generación: El modelo responde usando los datos reales,
   no su conocimiento general

Sin RAG: El agente inventa una respuesta plausible (alucinación). Con RAG: El agente cita datos verificables de tus documentos.

Bases de datos vectoriales

Para que RAG funcione, necesitas una base de datos que entienda significado, no solo palabras exactas. Eso son las bases vectoriales.

Base vectorial	Tipo	Popular para
Pinecone	Cloud	Producción empresarial
Qdrant	Open source	Auto-hosting
pgvector	Extensión PostgreSQL	Si ya usas PostgreSQL
ChromaDB	Open source	Prototipado rápido
Weaviate	Open source/Cloud	Búsqueda semántica avanzada

Cómo se almacenan los documentos:

El documento se divide en fragmentos (chunks) de 200-500 tokens
Cada fragmento se convierte en un vector (embedding) de números
Los vectores se indexan para búsqueda rápida por similitud

Cuando el agente pregunta algo, su pregunta también se convierte en un vector y se buscan los fragmentos más “cercanos” en significado.

✅ Quick Check: ¿Por qué usamos una base de datos vectorial en vez de una búsqueda SQL normal? (Porque la búsqueda vectorial entiende significado semántico. “¿Puedo devolver un producto?” y “política de devoluciones” son semánticamente similares aunque no comparten palabras exactas. SQL busca coincidencias literales.)

Cuándo usar cada nivel

Nivel	Cuándo usarlo	Ejemplo
Trabajo	Siempre — es automático	La conversación actual
Episódica	Cuando necesitas continuidad entre sesiones	Historial de un cliente, preferencias
Semántica (RAG)	Cuando el agente necesita información interna de la empresa	Políticas, manuales, catálogos

Para un MVP, la memoria de trabajo es suficiente. Cuando el agente necesite “recordar” entre sesiones, añade episódica. Cuando necesite conocimiento que el modelo no tiene, añade RAG.

Puntos clave

Memoria de trabajo = ventana de contexto actual (128K-200K tokens, se llena)
Memoria episódica = registros de sesiones pasadas (continuidad entre interacciones)
Memoria semántica = base de conocimiento con RAG (información interna de la empresa)
RAG: pregunta → buscar fragmentos relevantes → inyectar en contexto → generar respuesta
Bases vectoriales (Pinecone, pgvector, ChromaDB) buscan por significado, no por palabras exactas
Empieza simple: memoria de trabajo → episódica → RAG según necesidad

Siguiente lección

Un agente solo puede ser muy capaz. Pero algunas tareas necesitan especialistas. En la lección 6 vamos a sistemas multi-agente: cuándo y cómo coordinar varios agentes trabajando juntos.

Comprobación de Conocimientos

1. ¿Cuáles son los 3 niveles de memoria de un agente?

Corta, media y larga Memoria de trabajo (contexto inmediato), episódica (historial) y semántica (base de conocimiento) RAM, disco duro y nube

2. ¿Qué resuelve RAG que el modelo solo no puede?

Ejecutar código más rápido Acceder a información interna de la empresa que no está en los datos de entrenamiento del modelo Generar imágenes

3. ¿Qué pasa cuando la conversación excede la ventana de contexto del modelo?

El modelo se detiene y no puede continuar Los mensajes más antiguos se pierden y el agente 'olvida' el inicio de la conversación El modelo comprime automáticamente toda la información sin perder nada

Responde todas las preguntas para comprobar

Primero completa el quiz de arriba

Skills Relacionados

Arquitecto de Memoria de Agentes Guía de Implementación RAG