Lección 2 15 min

Anatomía de un agente: los 4 componentes

Los 4 componentes de un agente de IA — modelo LLM, herramientas, memoria y orquestador. Cómo funcionan juntos para completar tareas complejas.

Contenido de Curso Premium

Esta lección es parte de un curso premium. Mejora a Pro para desbloquear todos los cursos premium y su contenido.

Acceso a todos los cursos premium
Más de 1000 plantillas de skills de IA incluidas
Contenido nuevo cada semana

← Volver al curso

En la lección 1 vimos la diferencia entre chatbots y agentes. Ahora vamos a abrir la caja y entender qué hay dentro.

Los 4 componentes

Todo agente de IA — desde un bot de WhatsApp hasta un sistema de análisis financiero — se construye con las mismas 4 piezas:

┌─────────────────────────────────────┐
│           ORQUESTADOR               │
│    (coordina el ciclo de acción)    │
│                                     │
│  ┌──────────┐  ┌──────────────┐    │
│  │  MODELO   │  │ HERRAMIENTAS │    │
│  │  (LLM)   │  │ (APIs, web,  │    │
│  │          │  │  código, BD) │    │
│  └──────────┘  └──────────────┘    │
│         ┌──────────┐               │
│         │ MEMORIA  │               │
│         │(contexto)│               │
│         └──────────┘               │
└─────────────────────────────────────┘

1. Modelo LLM — El cerebro

El modelo es el motor de razonamiento. Recibe información, analiza, planifica y decide qué hacer.

¿Qué modelos se usan?

GPT-4o, GPT-4.1 (OpenAI)
Claude 3.5 Sonnet, Claude 4 (Anthropic)
Gemini 2.5 (Google)
Modelos open source: Llama, Mistral

Lo que el modelo puede hacer: Razonar sobre información compleja, generar texto, analizar datos, escribir código, tomar decisiones basadas en contexto.

Lo que NO puede hacer solo: Buscar en internet, ejecutar código, acceder a bases de datos, enviar correos. Para eso necesita herramientas.

✅ Quick Check: ¿Por qué no basta con un modelo LLM muy potente para tener un agente? (Porque el modelo solo puede razonar y generar texto. Sin herramientas no puede actuar en el mundo real — buscar datos, ejecutar código o enviar mensajes.)

2. Herramientas — Los brazos

Las herramientas son las acciones que el agente puede ejecutar en el mundo real.

Categoría	Ejemplos
Búsqueda web	Brave Search, Tavily, DuckDuckGo
Ejecución de código	Python, JavaScript, shell commands
APIs externas	CRM, WhatsApp, Google Calendar, ERP
Bases de datos	SQL queries, búsquedas vectoriales
Documentos	Leer PDFs, Excel, Word
Comunicación	Slack, correo electrónico

Cómo funciona técnicamente: El modelo no ejecuta herramientas directamente. Genera una “llamada a función” (function call) que dice: “Necesito ejecutar buscar_web(query='proveedores packaging México'). La aplicación ejecuta esa función y devuelve el resultado al modelo.

Esto se llama function calling — y es la base técnica de todos los agentes. Claude, GPT-4 y Gemini lo soportan nativamente.

MCP (Model Context Protocol) — que vimos en otro curso — es el estándar que hace esto aún más simple: un solo protocolo para conectar cualquier herramienta con cualquier modelo.

3. Memoria — El contexto

Sin memoria, cada mensaje del agente sería como empezar de cero. La memoria permite continuidad.

Memoria de trabajo (ventana de contexto): Lo que el agente “tiene en mente” ahora mismo. Es la conversación actual más las instrucciones del sistema. Limitada por el tamaño de la ventana del modelo (128K-200K tokens en modelos modernos).

Memoria episódica (historial): Registro de interacciones pasadas. “La última vez que este usuario pidió un reporte, quiso formato Excel.” Permite personalización y aprendizaje.

Memoria semántica (base de conocimiento): Información factual almacenada externamente — documentos de la empresa, políticas, catálogos de productos. Se accede mediante RAG (Retrieval-Augmented Generation): el agente busca en una base de datos vectorial y trae solo la información relevante al contexto.

Pregunta: "¿Cuál es la política de devoluciones para México?"

Sin RAG → El agente inventa una respuesta (alucinación)
Con RAG → El agente busca en la base de conocimiento → encuentra el documento real → responde con datos verificados

La lección 5 profundiza en memoria y RAG.

4. Orquestador — El director

El orquestador es el componente que coordina todo. Ejecuta el ciclo:

Recibir objetivo — “Analiza las ventas del último mes”
Razonar — “Necesito consultar la base de datos primero”
Actuar — Ejecutar la herramienta (query SQL)
Observar — Recibir los resultados
Evaluar — “¿Tengo suficiente información?” Si no → volver al paso 2
Completar — Entregar el resultado al usuario

Es un loop. El agente puede dar varias vueltas antes de completar la tarea. Si algo falla (la API no responde, los datos están incompletos), el orquestador decide cómo manejar el error.

En la lección 3 veremos el patrón más usado para este loop: ReAct.

✅ Quick Check: ¿Cuál es la función del orquestador si la herramienta devuelve un error? (Decidir cómo manejar el error — reintentar, usar una herramienta alternativa, o escalar al usuario si no puede resolver el problema.)

Ejemplo: agente de atención al cliente

Veamos los 4 componentes en acción con un caso real de LATAM (inspirado en Falabella Colombia):

Modelo: Claude 3.5 Sonnet — interpreta mensajes de WhatsApp en español y decide la acción.

Herramientas: API de WhatsApp Business (leer/enviar mensajes), base de datos de pedidos (consultar estado), sistema de reembolsos (ejecutar devoluciones).

Memoria: Historial del cliente (compras anteriores, preferencias), base de conocimiento de políticas de devolución.

Orquestador: Loop que clasifica la intención → consulta datos → ejecuta la acción → confirma con el cliente.

Cliente: "Hola, mi pedido #4521 no llegó"

Orquestador:
1. Razona: "Necesito verificar el estado del pedido"
2. Herramienta: consultar_pedido(4521) → "En tránsito, entrega estimada mañana"
3. Observa: El pedido no está perdido, solo retrasado
4. Herramienta: enviar_whatsapp("Tu pedido #4521 está en camino. Llega mañana.")
5. Evalúa: Tarea completa

Todo esto sucede en segundos, sin intervención humana. Si el pedido estuviera perdido, el agente escalaría a un humano para decidir el reembolso.

Puntos clave

Todo agente tiene 4 componentes: modelo LLM, herramientas, memoria y orquestador
El modelo razona pero no actúa — las herramientas le dan acceso al mundo real
Function calling es la base técnica: el modelo “pide” ejecutar funciones
La memoria tiene 3 niveles: trabajo (contexto), episódica (historial), semántica (RAG)
El orquestador ejecuta el loop: razonar → actuar → observar → evaluar → repetir

Siguiente lección

Ya conoces las 4 piezas. En la lección 3 vamos al patrón más importante: el ciclo ReAct — cómo el agente piensa en voz alta antes de actuar, y por qué eso reduce las alucinaciones.

Comprobación de Conocimientos

1. ¿Cuáles son los 4 componentes fundamentales de un agente de IA?

Frontend, Backend, Base de datos y API Modelo LLM, Herramientas, Memoria y Orquestador Prompt, Respuesta, Contexto y Output

2. ¿Por qué un agente necesita herramientas externas?

Porque los modelos LLM no pueden generar texto Porque el modelo solo puede razonar y generar texto — necesita herramientas para buscar en internet, ejecutar código o llamar APIs Porque las herramientas son más baratas que el modelo

3. ¿Qué hace el orquestador en un agente?

Entrena el modelo LLM con datos nuevos Coordina el ciclo: decide qué herramienta usar, evalúa resultados, y determina si la tarea está completa Almacena los resultados en una base de datos

Responde todas las preguntas para comprobar

Primero completa el quiz de arriba

Skills Relacionados

Diseñador de Agentes IA Arquitecto de Memoria de Agentes