Produktions-Patterns: Fehlerbehandlung und Deployment

🔄 In den letzten vier Lektionen hast du KI-Workflows gebaut: LLM Chains, Agenten mit Tools, Memory und RAG-Pipelines. Alles funktioniert im Testmodus — du klickst auf „Test workflow" und siehst Ergebnisse. Aber was passiert, wenn die OpenAI-API ein Timeout hat? Wenn 50 Anfragen gleichzeitig reinkommen? Wenn dein Server nachts abstürzt?

Produktion ist ein anderes Tier. Lass uns deine Workflows produktionsreif machen.

Was du lernst

Am Ende dieser Lektion kennst du die wichtigsten Produktions-Patterns: Error Handling, Queue Mode, DSGVO-konformes Deployment und Monitoring.

Error Handling: Wenn KI-Workflows scheitern

KI-Workflows scheitern anders als klassische Automatisierungen. API-Rate-Limits, Timeout bei langen Generierungen, unerwartete LLM-Antworten — das sind die üblichen Verdächtigen.

Fehlertypen und Strategien

Fehler	Code	Strategie
Rate Limit	429	Retry mit Backoff (1s, 2s, 5s)
Server-Fehler	5xx	Retry bis 3x, dann Error-Workflow
Auth-Fehler	401	Credentials prüfen, KEIN Retry
Ungültiger Input	422	Manuell prüfen
Timeout	-	Timeout erhöhen oder Aufgabe aufteilen
Unerwartete Antwort	-	Output-Validierung + Fallback

Retry in n8n konfigurieren

Jeder Node hat Error-Handling-Optionen:

Retry on Fail: Bis zu 5 Retries
Wait Between Tries: Exponentieller Backoff
- 1. Retry: 1 Sekunde
- 1. Retry: 2 Sekunden
- 1. Retry: 5 Sekunden
- 1. Retry: 13 Sekunden
- Jitter: ±20% (verhindert, dass alle Retries gleichzeitig feuern)
Continue on Fail: Workflow läuft weiter, Fehler wird als Output weitergegeben
Error Workflow: Separater Workflow wird bei Fehler ausgelöst

✅ Quick Check: Warum hat der Retry-Mechanismus Jitter (zufällige Variation)? (Um das „Thundering Herd"-Problem zu vermeiden. Wenn 100 Workflows gleichzeitig ein Rate Limit bekommen und alle nach exakt 2 Sekunden retrien, schicken sie wieder 100 Anfragen gleichzeitig. Jitter verteilt die Retries zeitlich.)

Error-Workflow einrichten

Ein Error-Workflow wird ausgelöst, wenn dein Hauptworkflow fehlschlägt:

Error Trigger → Set (Fehlerdaten) → Slack-Nachricht + E-Mail

Konfiguration:

Erstelle einen neuen Workflow mit dem „Error Trigger" Node
Füge einen Slack- oder E-Mail-Node hinzu
In deinem Hauptworkflow: Settings → Error Workflow → den Error-Workflow auswählen

Tja, Error-Workflows sind nicht optional in Produktion. Ohne sie merkst du erst, dass etwas schiefgelaufen ist, wenn ein Kollege fragt, warum die automatische E-Mail-Antwort nicht mehr kommt.

Queue Mode: Skalierung

Für einfache Setups reicht eine einzelne n8n-Instanz. Aber wenn du dutzende Workflows hast, die parallel laufen, brauchst du Queue Mode.

Architektur

                    ┌────────────┐
                    │ Main       │  ← UI, API, Trigger-Verwaltung
                    │ Instance   │
                    └─────┬──────┘
                          │
                    ┌─────▼──────┐
                    │   Redis    │  ← Job-Queue
                    │   Queue    │
                    └─────┬──────┘
                     ┌────┴────┐
               ┌─────▼──┐ ┌──▼─────┐
               │ Worker  │ │ Worker │  ← Workflow-Ausführung
               │   1     │ │   2    │
               └─────────┘ └────────┘

Voraussetzungen:

PostgreSQL 13+ (Datenbank)
Redis (Job-Queue)
Gleicher Encryption Key auf allen Instanzen

Skalierung: Mehr Anfragen? Mehr Worker starten. Jeder Worker ist ein eigenständiger Node.js-Prozess. Du kannst Concurrency pro Worker begrenzen mit N8N_CONCURRENCY_PRODUCTION_LIMIT.

DSGVO-konformes Deployment

Für den DACH-Raum ist DSGVO-Compliance kein optionales Feature. Es gibt zwei Wege:

Option 1: n8n Cloud (Frankfurt)

Server: Azure Germany West Central (Frankfurt)
Verschlüsselung: TLS in Transit, AES at Rest
n8n ist Auftragsverarbeiter → du brauchst einen AV-Vertrag
Vorteil: Kein Ops-Aufwand
Nachteil: Drittanbieter verarbeitet deine Daten

Option 2: Self-Hosting (volle Kontrolle)

Server: Hetzner (Falkenstein/Nürnberg), IONOS, Contabo — alles in Deutschland
Keine Drittanbieter in der Kette (außer LLM-Provider)
Volle Kontrolle über Logs, Backups, Löschfristen
Vorteil: Maximale Datensouveränität
Nachteil: Du bist für Wartung verantwortlich

DSGVO-Checkliste für n8n-Workflows

Punkt	Was zu tun
Datenstandort	Server in Deutschland/EU wählen
Execution-Daten	Auto-Pruning aktivieren (z.B. nach 7 Tagen)
Credentials	Verschlüsselung prüfen, Encryption Key sicher verwahren
LLM-Provider	Prüfen, ob Daten für Training genutzt werden (OpenAI: opt-out möglich; Claude: kein Training mit API-Daten)
Personenbezogene Daten	Vor KI-Verarbeitung anonymisieren/pseudonymisieren
Löschkonzept	Ausführungsdaten + Memory regelmäßig löschen
Dokumentation	Verarbeitungstätigkeiten dokumentieren (Art. 30 DSGVO)

✅ Quick Check: Was musst du beim LLM-Provider bezüglich DSGVO prüfen? (Ob der Provider deine Daten für Modell-Training nutzt. OpenAI tut das standardmäßig bei der Chat-Version, nicht bei der API — aber du solltest opt-out explizit aktivieren. Anthropic/Claude nutzt API-Daten nicht fürs Training. Außerdem: wo werden die Daten verarbeitet?)

EU AI Act: Was dich betrifft

Ab August 2026 gilt der EU AI Act vollständig. Für n8n-KI-Workflows bedeutet das:

Risikostufe	Beispiel	Pflichten
Minimal	E-Mail-Klassifizierung, Zusammenfassung	Keine besonderen Pflichten
Begrenzt	Chatbots (Transparenzpflicht)	Nutzer muss wissen, dass er mit KI spricht
Hoch	KI in HR-Entscheidungen, Kreditvergabe	Risikomanagement, Dokumentation, Audit
Unakzeptabel	Social Scoring, Emotionserkennung am Arbeitsplatz	Verboten

Die meisten n8n-KI-Workflows fallen unter „Minimal" oder „Begrenzt". Wichtig: Wenn dein Chatbot Kundeninteraktion hat, muss klar sein, dass es KI ist (Transparenzpflicht).

Monitoring: Was du überwachen solltest

Metrik	Warum	Wie
Execution Success Rate	Wie oft laufen Workflows durch?	n8n Executions-Seite
API-Kosten	LLM-Kosten im Griff behalten	OpenAI/Anthropic Dashboard
Latenz	Wie schnell antwortet der Agent?	Execution-Dauer in n8n
Error Rate	Welche Workflows scheitern?	Error-Workflow + Alerting
Token-Verbrauch	Memory-Kosten im Blick	LLM-Provider Dashboard

Tipp: Richte einen wöchentlichen „Health Check"-Workflow ein:

Schedule (montags 9:00) → HTTP Request (n8n API: letzte Executions)
→ Filter (nur Fehler) → Slack-Nachricht mit Fehler-Zusammenfassung

Wichtigste Erkenntnisse

Error Handling ist Pflicht: Retry mit exponentiellem Backoff + Jitter für API-Fehler, Error-Workflows für Alerting
Queue Mode trennt Main-Instanz (UI) von Workers (Ausführung) — skaliert horizontal mit Redis
Self-Hosting auf deutschen Servern (Hetzner, IONOS) bietet maximale DSGVO-Compliance
n8n Cloud läuft in Frankfurt — gut, aber Self-Hosting eliminiert den Drittanbieter komplett
EU AI Act ab August 2026: Die meisten n8n-Workflows sind „Minimal" oder „Begrenzt", aber Chatbots brauchen Transparenzhinweis
Monitoring der Execution Success Rate und API-Kosten verhindert böse Überraschungen

Nächste Lektion

Du hast alle Bausteine: KI-Nodes, Agenten, Memory, RAG und Produktions-Patterns. In der Capstone-Lektion baust du alles zusammen — einen vollständigen KI-Assistenten mit RAG, Memory, Tools und Fehlerbehandlung in einem Workflow.