Anatomía de un agente: los 4 componentes
Los 4 componentes de un agente de IA — modelo LLM, herramientas, memoria y orquestador. Cómo funcionan juntos para completar tareas complejas.
Contenido de Curso Premium
Esta lección es parte de un curso premium. Mejora a Pro para desbloquear todos los cursos premium y su contenido.
- Acceso a todos los cursos premium
- Más de 1000 plantillas de skills de IA incluidas
- Contenido nuevo cada semana
En la lección 1 vimos la diferencia entre chatbots y agentes. Ahora vamos a abrir la caja y entender qué hay dentro.
Los 4 componentes
Todo agente de IA — desde un bot de WhatsApp hasta un sistema de análisis financiero — se construye con las mismas 4 piezas:
┌─────────────────────────────────────┐
│ ORQUESTADOR │
│ (coordina el ciclo de acción) │
│ │
│ ┌──────────┐ ┌──────────────┐ │
│ │ MODELO │ │ HERRAMIENTAS │ │
│ │ (LLM) │ │ (APIs, web, │ │
│ │ │ │ código, BD) │ │
│ └──────────┘ └──────────────┘ │
│ ┌──────────┐ │
│ │ MEMORIA │ │
│ │(contexto)│ │
│ └──────────┘ │
└─────────────────────────────────────┘
1. Modelo LLM — El cerebro
El modelo es el motor de razonamiento. Recibe información, analiza, planifica y decide qué hacer.
¿Qué modelos se usan?
- GPT-4o, GPT-4.1 (OpenAI)
- Claude 3.5 Sonnet, Claude 4 (Anthropic)
- Gemini 2.5 (Google)
- Modelos open source: Llama, Mistral
Lo que el modelo puede hacer: Razonar sobre información compleja, generar texto, analizar datos, escribir código, tomar decisiones basadas en contexto.
Lo que NO puede hacer solo: Buscar en internet, ejecutar código, acceder a bases de datos, enviar correos. Para eso necesita herramientas.
✅ Quick Check: ¿Por qué no basta con un modelo LLM muy potente para tener un agente? (Porque el modelo solo puede razonar y generar texto. Sin herramientas no puede actuar en el mundo real — buscar datos, ejecutar código o enviar mensajes.)
2. Herramientas — Los brazos
Las herramientas son las acciones que el agente puede ejecutar en el mundo real.
| Categoría | Ejemplos |
|---|---|
| Búsqueda web | Brave Search, Tavily, DuckDuckGo |
| Ejecución de código | Python, JavaScript, shell commands |
| APIs externas | CRM, WhatsApp, Google Calendar, ERP |
| Bases de datos | SQL queries, búsquedas vectoriales |
| Documentos | Leer PDFs, Excel, Word |
| Comunicación | Slack, correo electrónico |
Cómo funciona técnicamente: El modelo no ejecuta herramientas directamente. Genera una “llamada a función” (function call) que dice: “Necesito ejecutar buscar_web(query='proveedores packaging México'). La aplicación ejecuta esa función y devuelve el resultado al modelo.
Esto se llama function calling — y es la base técnica de todos los agentes. Claude, GPT-4 y Gemini lo soportan nativamente.
MCP (Model Context Protocol) — que vimos en otro curso — es el estándar que hace esto aún más simple: un solo protocolo para conectar cualquier herramienta con cualquier modelo.
3. Memoria — El contexto
Sin memoria, cada mensaje del agente sería como empezar de cero. La memoria permite continuidad.
Memoria de trabajo (ventana de contexto): Lo que el agente “tiene en mente” ahora mismo. Es la conversación actual más las instrucciones del sistema. Limitada por el tamaño de la ventana del modelo (128K-200K tokens en modelos modernos).
Memoria episódica (historial): Registro de interacciones pasadas. “La última vez que este usuario pidió un reporte, quiso formato Excel.” Permite personalización y aprendizaje.
Memoria semántica (base de conocimiento): Información factual almacenada externamente — documentos de la empresa, políticas, catálogos de productos. Se accede mediante RAG (Retrieval-Augmented Generation): el agente busca en una base de datos vectorial y trae solo la información relevante al contexto.
Pregunta: "¿Cuál es la política de devoluciones para México?"
Sin RAG → El agente inventa una respuesta (alucinación)
Con RAG → El agente busca en la base de conocimiento → encuentra el documento real → responde con datos verificados
La lección 5 profundiza en memoria y RAG.
4. Orquestador — El director
El orquestador es el componente que coordina todo. Ejecuta el ciclo:
- Recibir objetivo — “Analiza las ventas del último mes”
- Razonar — “Necesito consultar la base de datos primero”
- Actuar — Ejecutar la herramienta (query SQL)
- Observar — Recibir los resultados
- Evaluar — “¿Tengo suficiente información?” Si no → volver al paso 2
- Completar — Entregar el resultado al usuario
Es un loop. El agente puede dar varias vueltas antes de completar la tarea. Si algo falla (la API no responde, los datos están incompletos), el orquestador decide cómo manejar el error.
En la lección 3 veremos el patrón más usado para este loop: ReAct.
✅ Quick Check: ¿Cuál es la función del orquestador si la herramienta devuelve un error? (Decidir cómo manejar el error — reintentar, usar una herramienta alternativa, o escalar al usuario si no puede resolver el problema.)
Ejemplo: agente de atención al cliente
Veamos los 4 componentes en acción con un caso real de LATAM (inspirado en Falabella Colombia):
Modelo: Claude 3.5 Sonnet — interpreta mensajes de WhatsApp en español y decide la acción.
Herramientas: API de WhatsApp Business (leer/enviar mensajes), base de datos de pedidos (consultar estado), sistema de reembolsos (ejecutar devoluciones).
Memoria: Historial del cliente (compras anteriores, preferencias), base de conocimiento de políticas de devolución.
Orquestador: Loop que clasifica la intención → consulta datos → ejecuta la acción → confirma con el cliente.
Cliente: "Hola, mi pedido #4521 no llegó"
Orquestador:
1. Razona: "Necesito verificar el estado del pedido"
2. Herramienta: consultar_pedido(4521) → "En tránsito, entrega estimada mañana"
3. Observa: El pedido no está perdido, solo retrasado
4. Herramienta: enviar_whatsapp("Tu pedido #4521 está en camino. Llega mañana.")
5. Evalúa: Tarea completa
Todo esto sucede en segundos, sin intervención humana. Si el pedido estuviera perdido, el agente escalaría a un humano para decidir el reembolso.
Puntos clave
- Todo agente tiene 4 componentes: modelo LLM, herramientas, memoria y orquestador
- El modelo razona pero no actúa — las herramientas le dan acceso al mundo real
- Function calling es la base técnica: el modelo “pide” ejecutar funciones
- La memoria tiene 3 niveles: trabajo (contexto), episódica (historial), semántica (RAG)
- El orquestador ejecuta el loop: razonar → actuar → observar → evaluar → repetir
Siguiente lección
Ya conoces las 4 piezas. En la lección 3 vamos al patrón más importante: el ciclo ReAct — cómo el agente piensa en voz alta antes de actuar, y por qué eso reduce las alucinaciones.
Comprobación de Conocimientos
Primero completa el quiz de arriba
¡Lección completada!