RAG-Workflows: KI, die deine Daten kennt
Baue eine RAG-Pipeline in n8n: Dokumente laden, in Vektoren umwandeln, in einem Vector Store speichern und per KI-Agent abfragen — visuell, ohne Code.
🔄 In den letzten Lektionen hast du KI-Agenten mit Tools und Memory gebaut. Dein Agent kann das Web durchsuchen und sich an Konversationen erinnern. Aber er kennt nur öffentliche Informationen. Was, wenn du willst, dass er Fragen zu deinen internen Dokumenten beantwortet? Zu deinem Handbuch, deinen Prozessbeschreibungen, deiner Wissensdatenbank?
Dafür gibt es RAG — Retrieval-Augmented Generation.
Was du lernst
Am Ende dieser Lektion hast du eine funktionierende RAG-Pipeline: Dokumente hochladen, in Vektoren umwandeln, speichern und per KI-Agent abfragen.
RAG in 60 Sekunden
RAG besteht aus zwei Phasen:
Phase 1: Ingestion (einmalig)
Dokumente → Chunks → Embeddings → Vector Store
Phase 2: Abfrage (bei jeder Frage)
Frage → Embedding → Ähnlichkeitssuche → Relevante Chunks → LLM → Antwort
Das ist ja im Grunde wie eine smarte Suchmaschine für deine eigenen Daten. Statt Google zu fragen, fragst du deine Wissensdatenbank — und bekommst eine zusammengefasste Antwort statt einer Liste von Links.
✅ Quick Check: Warum heißt es „Retrieval-Augmented"? (Weil die KI-Antwort durch abgerufene (retrieved) Dokumente ergänzt (augmented) wird. Das LLM generiert nicht aus dem Nichts — es bekommt relevante Textpassagen als Kontext und antwortet basierend darauf. Weniger Halluzinationen, mehr Genauigkeit.)
Phase 1: Ingestion-Pipeline bauen
Schritt 1: Dokumente laden
n8n bietet mehrere Document Loaders:
| Loader | Für | Einrichtung |
|---|---|---|
| File | Lokale Dateien (PDF, TXT, DOCX) | Dateipfad angeben |
| Google Drive | Google Docs, Sheets | Google-Credential |
| Notion | Notion-Seiten | Notion-API-Key |
| URL | Webseiten | URL eingeben |
| S3/Minio | Cloud-Speicher | S3-Credential |
Für unseren Prototyp nutzen wir den File Loader mit PDFs.
Schritt 2: Text splitten (Chunking)
Dokumente werden in kleinere Stücke geschnitten — sogenannte Chunks. Warum? Zwei Gründe:
- Embedding-Modelle haben Token-Limits (OpenAI: 8.191 Tokens)
- Kleinere Chunks = präzisere Suchergebnisse
Text Splitter konfigurieren:
- Chunk Size: 500-1000 Tokens (Standard: 1000)
- Chunk Overlap: 200 Tokens (verhindert, dass Kontext an Chunk-Grenzen verloren geht)
Puh, die richtige Chunk-Größe ist Erfahrungssache. Zu klein → die KI bekommt Schnipsel ohne Kontext. Zu groß → die Suche wird ungenau. 500-1000 Tokens sind ein guter Start.
Schritt 3: Embeddings erstellen
Embeddings wandeln Text in Zahlenvektoren um — so kann der Computer „Ähnlichkeit" berechnen.
Embedding-Node konfigurieren:
- Füge den „Embeddings OpenAI" Node hinzu
- Modell:
text-embedding-3-small(günstig und gut genug) - Credential: Dein OpenAI-Key
Kosten: text-embedding-3-small kostet ~$0.02 pro 1M Tokens. Ein 100-Seiten-Dokument hat 50.000 Tokens → **$0.001 für die gesamte Ingestion**. Quasi kostenlos.
Schritt 4: In Vector Store speichern
Für den Prototyp: In-Memory Vector Store (kein Setup nötig). Für Produktion: PGVector (PostgreSQL-Erweiterung) oder Qdrant.
In-Memory Vector Store:
- Füge den „In-Memory Vector Store" Node hinzu
- Verbinde ihn mit dem Embedding-Node
- Fertig — die Vektoren leben im RAM
PGVector (für Produktion):
- PostgreSQL mit pgvector-Erweiterung installieren (
CREATE EXTENSION vector;) - PGVector-Credential in n8n anlegen
- Table Name:
documents(wird automatisch erstellt) - Collection Name: z.B.
mein_handbuch
✅ Quick Check: Wann solltest du von In-Memory auf PGVector wechseln? (Wenn du mehr als ein paar Dutzend Dokumente hast, wenn die Daten einen Server-Neustart überleben müssen, oder wenn mehrere Nutzer gleichzeitig abfragen. In-Memory ist nur für Prototypen.)
Phase 2: Abfrage-Workflow
Jetzt bauen wir den zweiten Workflow — den, der Fragen beantwortet.
Option A: Question-Answer Chain (einfach)
Chat Trigger → QA Chain → Antwort
↑
Vector Store + LLM
Die Question and Answer Chain ist der einfachste RAG-Node. Sie:
- Nimmt die Frage
- Wandelt sie in ein Embedding um
- Sucht im Vector Store nach ähnlichen Chunks
- Schickt Frage + Chunks ans LLM
- Gibt die Antwort zurück
Konfiguration:
- Top K: 4 (die 4 ähnlichsten Chunks werden verwendet)
- LLM: GPT-4o oder Claude
Option B: Agent mit Vector Store als Tool (flexibel)
Chat Trigger → AI Agent → Antwort
↑
Tools: Vector Store + Web-Suche
Memory: PostgreSQL
Hier ist der Vector Store ein Tool, das der Agent nach Bedarf nutzt. Vorteil: Der Agent kann entscheiden, ob er in der Wissensbasis sucht oder eine Web-Suche macht.
Seit n8n v1.74.0 (Januar 2025) können Vector Stores direkt als Agent-Tools verwendet werden — du verbindest den Vector Store einfach unter „Tools" im Agent-Node.
Vector Store Vergleich
| Store | Setup | Persistenz | Kosten | Empfehlung |
|---|---|---|---|---|
| In-Memory | Sofort | ❌ | 0 | Prototyping |
| PGVector | PostgreSQL + Extension | ✅ | ~$10/mo (VPS) | Produktion (wenn PostgreSQL schon da) |
| Qdrant | Docker Container | ✅ | ~$15/mo | Produktion (dediziert) |
| Supabase | Cloud | ✅ | Free Tier verfügbar | Schneller Start |
| Pinecone | Cloud (Managed) | ✅ | Free Tier / $70+/mo | Enterprise |
Für n8n Self-Hosted ist PGVector oft die beste Wahl — du hast PostgreSQL wahrscheinlich schon für n8n selbst. Einfach die Extension aktivieren und loslegen.
Ingestion-Tipps
Dokument-Qualität > Menge RAG ist so gut wie deine Daten. Schlechte Dokumente = schlechte Antworten. Lieber 50 gut strukturierte Seiten als 500 unformatierte.
Metadata nutzen n8n kann Metadata zu Chunks speichern — Dateiname, Seitenzahl, Kategorie. Das ermöglicht gefilterte Suche:
{
"text": "Die Kündigungsfrist beträgt 3 Monate...",
"metadata": {
"source": "arbeitsvertrag.pdf",
"page": 12,
"category": "personal"
}
}
Regelmäßig aktualisieren Dokumente ändern sich. Plane einen Schedule-Workflow, der die Ingestion regelmäßig ausführt — z.B. wöchentlich oder bei Dateiänderungen.
Wichtigste Erkenntnisse
- RAG besteht aus zwei Phasen: Ingestion (Dokumente → Vektoren) und Abfrage (Frage → relevante Chunks → Antwort)
- Chunking splittet Dokumente in 500-1000 Token-Stücke — kleiner = präziser, größer = mehr Kontext
- Embeddings kosten fast nichts (~$0.001 für 100 Seiten) — die Abfrage-Kosten beim LLM sind relevanter
- In-Memory Vector Store für Prototypen, PGVector oder Qdrant für Produktion
- Vector Stores können seit n8n v1.74.0 direkt als Agent-Tools genutzt werden
- Dokument-Qualität bestimmt die Antwort-Qualität — schlechte Daten rein, schlechte Antworten raus
Nächste Lektion
Du hast jetzt KI-Agenten mit Tools, Memory und RAG. Alles funktioniert im Testmodus. Aber wie bringst du das in Produktion? In der nächsten Lektion lernst du Produktions-Patterns: Fehlerbehandlung, Queue Mode, Monitoring und DSGVO-konforme Deployment-Strategien.
Wissenscheck
Erst das Quiz oben abschließen
Lektion abgeschlossen!