6/8

Lección 6 12 min

Generación y anclaje: Respuestas confiables

Cómo diseñar prompts para RAG que producen respuestas ancladas con citaciones, y las técnicas para prevenir alucinaciones en la generación.

Contenido de Curso Premium

Esta lección es parte de un curso premium. Mejora a Pro para desbloquear todos los cursos premium y su contenido.

Acceso a todos los cursos premium
Más de 1000 plantillas de skills de IA incluidas
Contenido nuevo cada semana

← Volver al curso

🔄 En la lección anterior recuperaste los fragmentos correctos con reranking y búsqueda híbrida. Ahora viene el paso que el usuario realmente ve: la respuesta generada por el LLM.

Y aquí es donde muchos sistemas RAG fallan. Recuperan bien pero generan mal. El LLM ignora el contexto, inventa datos que no están en los fragmentos, o mezcla información de fuentes diferentes de forma incorrecta.

El antídoto: prompts diseñados específicamente para anclaje.

Lo que aprenderás

Al terminar esta lección sabrás cómo diseñar prompts de RAG que producen respuestas confiables con citaciones, y las técnicas para prevenir alucinaciones en la generación.

El prompt stack de tres capas

La arquitectura de prompt que funciona en producción tiene tres capas separadas:

Capa 1: Sistema (reglas y restricciones)

Eres un asistente de soporte técnico de [Empresa].
Responde ÚNICAMENTE usando la información del CONTEXTO proporcionado.
Si el contexto no contiene información relevante, responde:
"No tengo información suficiente para responder esta pregunta."
NO inventes información. NO uses conocimiento externo.
Cita la fuente de cada afirmación usando [Fuente: nombre_documento, p.X].
Responde en español de forma clara y concisa.

Capa 2: Contexto (fragmentos recuperados)

=== CONTEXTO ===

[Fuente: politica-devoluciones-v3.pdf, p.4]
El plazo máximo para devoluciones es de 30 días naturales a partir
de la fecha de compra. Los productos deben estar sin uso y en su
embalaje original.

[Fuente: politica-devoluciones-v3.pdf, p.5]
Para productos defectuosos, el plazo se extiende a 90 días.
Se requiere prueba de compra (factura o ticket digital).

[Fuente: faq-soporte-2026.md, sección: Devoluciones]
Las devoluciones se procesan en 5-7 días hábiles una vez recibido
el producto en nuestro almacén.

=== FIN CONTEXTO ===

Capa 3: Usuario (la consulta)

Pregunta del usuario: ¿Cuánto tiempo tengo para devolver un producto defectuoso?

Resultado esperado

Los productos defectuosos tienen un plazo de devolución de 90 días a partir de la fecha de compra [Fuente: politica-devoluciones-v3.pdf, p.5]. Necesitarás presentar prueba de compra (factura o ticket digital). Una vez recibido el producto, la devolución se procesa en 5-7 días hábiles [Fuente: faq-soporte-2026.md].

La respuesta está anclada — cada afirmación viene de un fragmento específico y lo cita.

✅ Quick Check: ¿Qué pasa si pones las instrucciones del sistema y el contexto en el mismo bloque? (Funciona, pero la consistencia baja. El modelo puede confundir las instrucciones con el contexto, especialmente cuando los fragmentos contienen texto instructivo. La separación clara con marcadores (=== CONTEXTO ===) ayuda al modelo a distinguir qué es información y qué es instrucción.)

Citaciones: El mecanismo anti-alucinación

La investigación de 2025 encontró una correlación directa: a mayor tasa de citaciones, menos alucinaciones.

Compliance de citaciones	Tasa de alucinación
0% (sin citaciones)	15-25%
50%	~8%
88%+	~2%

¿Por qué? Porque citar es un constraint de generación. El modelo necesita apuntar a un fragmento real para cada afirmación. Eso limita lo que puede “inventar.”

Tres formatos de citación

Formato 1: Inline (recomendado)

El plazo es de 30 días [Fuente: politicas.pdf, p.4].

Formato 2: Footnotes

El plazo es de 30 días.¹ ¹ politicas.pdf, página 4

Formato 3: Bloque al final

El plazo es de 30 días para productos regulares y 90 días para defectuosos.
Fuentes utilizadas:
politicas.pdf, páginas 4-5
faq-soporte.md, sección Devoluciones

El formato inline funciona mejor en producción porque la citación está junto a la afirmación. El usuario puede verificar inmediatamente.

Prevención de alucinaciones

Más allá de las citaciones, hay técnicas adicionales:

Instrucción de “no sé”

La instrucción más importante en todo el prompt de sistema:

Si el CONTEXTO no contiene información relevante para responder
la pregunta, responde EXACTAMENTE:
"No tengo información suficiente para responder esta pregunta.
Te recomiendo contactar a [canal de soporte]."

NUNCA inventes información que no esté explícitamente en el CONTEXTO.

Sin esta instrucción, el modelo rellena los vacíos con su conocimiento general — que puede estar desactualizado o ser incorrecto para tu dominio.

Verificación de consistencia

Después de generar la respuesta, un segundo paso puede verificar:

verification_prompt = """
Compara la siguiente respuesta con el contexto proporcionado.
¿Cada afirmación en la respuesta está soportada por el contexto?

Respuesta: {generated_answer}
Contexto: {retrieved_chunks}

Responde con JSON:
{
  "claims_supported": ["afirmación 1", "afirmación 2"],
  "claims_unsupported": ["afirmación 3"],
  "verdict": "PASS" o "FAIL"
}
"""

Si hay afirmaciones no soportadas, regenera o filtra la respuesta.

El reto del español en RAG

Un desafío específico para RAG en español: si tus documentos están en español pero los embeddings se entrenaron principalmente en inglés, pueden aparecer artefactos de traducción en la generación.

Mejores prácticas:

Usa embeddings multilingües que alineen español e inglés (Qwen3-Embedding, OpenAI)
Embede en el mismo idioma que tus documentos
El prompt de sistema debe especificar “Responde en español”
Si mezclas documentos en español e inglés, indica en el prompt que el contexto puede estar en ambos idiomas

Puntos clave

El prompt stack de tres capas (sistema → contexto → usuario) produce respuestas más consistentes que mezclar todo en un bloque
Las citaciones inline reducen alucinaciones de 15-25% a ~2% — son el mecanismo anti-alucinación más efectivo
La instrucción de “no sé” es la regla más importante del prompt: preferir una no-respuesta honesta sobre una alucinación confiable
La verificación post-generación (¿cada afirmación está soportada por el contexto?) agrega una capa extra de seguridad
Para RAG en español: embede en el mismo idioma que los documentos y especifica el idioma de respuesta en el prompt

Siguiente lección

Tu sistema genera respuestas con citaciones. Pero ¿cómo sabes si es bueno? En la siguiente lección: evaluación y mejora continua — métricas RAGAS, evaluación en español y monitoreo en producción.

Comprobación de Conocimientos

1. ¿Cuáles son las tres capas del prompt stack para RAG?

Embedding → Búsqueda → Generación Capa de sistema (reglas y restricciones) → Capa de contexto (fragmentos recuperados) → Capa de usuario (la pregunta) Input → Processing → Output

2. Un sistema RAG con 88% de compliance de citaciones tiene solo 2% de alucinaciones. ¿Qué explica esta correlación?

Es coincidencia — las citaciones no tienen relación con las alucinaciones Cuando el modelo cita fragmentos específicos, se ve forzado a anclar sus respuestas en evidencia verificable — lo que reduce drásticamente la generación de contenido inventado Las citaciones eliminan las alucinaciones por completo

3. ¿Qué debe hacer el modelo cuando no encuentra información relevante en el contexto proporcionado?

Generar la mejor respuesta posible basada en su conocimiento general Devolver un mensaje vacío Decir explícitamente que no tiene información suficiente para responder — una no-respuesta honesta es mejor que una alucinación confiable

Responde todas las preguntas para comprobar

Primero completa el quiz de arriba

Skills Relacionados

Arquitecto de System Prompts