Mythos vs GPT-5.5-Cyber: BSI-Plattner und die KRITIS-Frage

OpenAI hat GPT-5.5-Cyber ausgeliefert. Anthropic Mythos läuft im Glasswing-Konsortium. Das Weiße Haus plant eine Vetting-EO. Was BSI, IT-SiG 3.0 und KRITIS dazu sagen.

Drei Dinge sind diese Woche auf den Schreibtisch jedes Cybersecurity-Verantwortlichen in Deutschland gelandet — und sie müssen zusammen gelesen werden.

Am 7. Mai hat OpenAI GPT-5.5-Cyber im Limited Preview an verifizierte Verteidiger ausgeliefert, zusammen mit der breiteren Auslieferung von GPT-5.5 unter dem neuen “Trusted Access for Cyber”-Framework. Das Modell ist die “permissivste Version”, die OpenAI für Cybersecurity-Workflows je freigegeben hat — explizit darauf abgestimmt, weniger zu verweigern, wenn autorisierte Verteidiger Vulnerabilities triagieren, Malware analysieren, Binaries reverse-engineeren, Detections bauen oder Patches validieren.

In derselben Woche hat BSI-Präsidentin Claudia Plattner sich öffentlich zu Anthropics Claude Mythos geäußert — dem unveröffentlichten Frontier-Modell, das in Pre-Release-Tests Tausende bislang unbekannte Zero-Days über Betriebssysteme, Browser und kritische Software hinweg gefunden haben soll. Plattner: Mythos könne “erhebliche Auswirkungen auf die Cyberbedrohungslage” haben; man erwarte “Umwälzungen im Umgang mit Sicherheitslücken und in der Schwachstellenlandschaft insgesamt”. Das BSI steht laut Plattner in direktem Austausch mit Anthropic, hat das Modell aber noch nicht selbst getestet.

Und am Mittwoch, 6. Mai, hat NEC-Direktor Kevin Hassett bestätigt, dass das Weiße Haus eine Executive Order vorbereitet, die ein staatliches Vetting für leistungsfähige KI-Modelle vorsähe — Hassetts Worte: “wie ein FDA-Medikament”. NSA, ODNI und das Office of the National Cyber Director sollen beteiligt sein.

OpenAIs Ankündigung “Introducing Trusted Access for Cyber” — das Identitäts- und Vertrauens-Framework, das den GPT-5.5-Cyber-Preview gatet, mit strengeren Account-Kontrollen für die höhere Permissivitäts-Stufe Quelle: OpenAI

Drei Anbieter. Drei Release-Posturen. Eine Regulierungswelle, die alles komprimieren könnte. Wenn du in Deutschland eine Cybersecurity-Funktion verantwortest, ist die Frage dieses Quartals nicht “welcher Anbieter besser ist” — es ist: Wie passt das in die NIS2-Anforderungen, das IT-SiG 3.0 und das BSI-Bewertungsraster für permissive Cyber-LLMs?

Was tatsächlich verfügbar ist

Drei Fakten, bevor irgendeine Beschaffungsentscheidung fällt.

GPT-5.5-Cyber: ausgeliefert, gegated, zwei Stufen. OpenAIs Struktur ist ein zweistufiges Produkt unter einem Framework. Die erste Stufe — GPT-5.5 mit Trusted Access for Cyber — ist die breitere Auslieferung: sicheres Code-Review, Vulnerability-Triage, Malware-Analyse, Detection-Engineering, Patch-Validierung. Die zweite — GPT-5.5-Cyber — ist das höher-permissive Modell, gedacht für autorisiertes Red-Teaming, Penetrationstests und kontrollierte Validierungs-Übungen. Beide werden über Trusted Access gegated, was Identitätsverifizierung, organisatorische Zertifizierung und (ab 1. Juni) Advanced Account Security oder phishing-resistentes SSO erfordert.

In DACH-Berichten — basierend auf der Bewertung des britischen AI Security Institute (AISI) — wird hervorgehoben, dass GPT-5.5 erstmals bei End-to-End-Cyber-Simulationen auf Mythos-Niveau liegt. AISI berichtet, dass GPT-5.5 als zweites Modell überhaupt eine auf 20 Stunden geschätzte Corporate-Network-Attack-Simulation vollständig durchgelaufen ist. Das ist der Sprung von punktueller Assistenz hin zu quasi-autonomen offensiven Workflows — und der Grund, warum deutsche Fachmedien GPT-5.5-Cyber als “permissiv getuntes Hochrisiko-Werkzeug” einordnen, das ohne starke Zugangskontrollen regulatorisch kaum vertretbar wäre.

Claude Mythos: nicht öffentlich verfügbar, Zugriff über Project Glasswing. Anthropics Posture ist by-design anders. Mythos ist so leistungsfähig bei der Schwachstellensuche, dass Anthropic die breite Auslieferung explizit ausgeschlossen hat. Verteidiger arbeiten über das Project-Glasswing-Konsortium — etwa 40 Großunternehmen plus weitere Operatoren kritischer Software, finanziert mit bis zu 100 Millionen USD Nutzungsguthaben. Mitglieder umfassen AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks. Es gibt keine öffentliche Warteliste — Zugang läuft über direkte Anthropic-Partnerschaft oder Mitgliedschaft in einer Glasswing-teilnehmenden Organisation.

Aus deutscher Sicht ist Mythos damit weniger ein “Produkt” als ein geopolitischer Faktor: Ein US-Anbieter bündelt Zero-Day-Discovery-Kapazität in einem konsortialen Rahmen, an dem überwiegend US-Tech-Konzerne teilnehmen — mit unmittelbaren Souveränitäts- und Abhängigkeitsfragen für europäische KRITIS-Betreiber.

Die Vetting-EO des Weißen Hauses: entworfen, nicht unterzeichnet. Hassetts Mittwochs-Auftritt ist das konkreteste Signal bisher. Wahrscheinliche Form: FDA-artige Pre-Deployment-Evaluierungen durch eine CAISI-geleitete Arbeitsgruppe. Effective-Date unklar; der Text ist im Entwurf. Das Commerce Department’s CAISI-Programm ist diese Woche um Google, Microsoft und xAI erweitert worden — beide sind jetzt unter formellen Vereinbarungen für freiwillige Pre-Deployment-Evaluation.

BSI-Position und der IT-SiG-3.0-Rahmen

Hier weicht die deutsche Realität von der US-Berichterstattung deutlich ab. Das IT-Sicherheitsgesetz 3.0 (NIS2UmsuCG) ist am 6. Dezember 2025 in Kraft getreten und erweitert den Kreis der betroffenen Einrichtungen auf rund 29.500 Unternehmen in Deutschland. KRITIS-Betreiber und “besonders wichtige Einrichtungen” müssen IT-Sicherheit auf dem “Stand der Technik” umsetzen, umfassende Risiko-Management-Prozesse etablieren, Vorfälle deutlich schneller melden und gegenüber dem BSI regelmäßig nachweisen.

Cyber-LLMs werden im Gesetzestext nicht explizit genannt — fallen aber direkt in die Pflichtenkategorien:

  • Stand der Technik: Wenn permissive Cyber-LLMs zum Stand der Technik werden (was bei AISI-zertifizierter End-to-End-Capability schwer von der Hand zu weisen ist), entsteht eine Pflicht zur Evaluation. Wer sie nicht prüft, kann nicht nachweisen, dass die eigene Defense state-of-the-art ist.
  • Nachweispflichten: KI-gestützte SOC-Werkzeuge müssen dokumentiert sein — Risikoanalyse, kontrollierter Betrieb, SOC-Playbooks, Protokollierung.
  • Lieferkettensicherheit: GPT-5.5-Cyber und Mythos sind US-Cloud-Modelle. Die Datenfluss-Kontrolle muss explizit dokumentiert sein, sonst wird das im ersten BSI-Audit zum Befund.

Plattners umfassendere Aussage ordnet das ein: KI-gestützte Schwachstellensuche könne “die Balance zwischen Verteidigung und Angriff aus den Angeln heben”. Mittel- bis langfristig seien klassische unbekannte Software-Lücken womöglich kaum noch existent — dafür steige die Geschwindigkeit von Exploit-Ketten und die Anforderungen an Reaktions- und Patching-Tempo. Das ist die operative Konsequenz, mit der KRITIS-SOCs jetzt planen müssen.

Das BSI hat Ende 2025 bereits einen Leitfaden zu Evasion-Angriffen gegen LLMs veröffentlicht, der speziell Betreiber vorkonfigurierter Modelle (z. B. GPT) adressiert und umfangreiche technische und organisatorische Gegenmaßnahmen fordert: Filter, Sandboxen, Zero-Trust-Zugriff, Anomalie-Monitoring, adversarielle Tests. Das ist die Grundlage, auf der GPT-5.5-Cyber-Deployments bewertet werden. Wer Trusted Access aktiviert, ohne diese Gegenmaßnahmen umzusetzen, riskiert beim ersten Audit den Befund “nicht Stand der Technik”.

BaFin BAIT für Finanz-SOCs

Für regulierte Finanzinstitute kommt die zweite Hürde. BaFin konkretisiert IT-Sicherheitsanforderungen über das Rundschreiben BAIT (“Bankaufsichtliche Anforderungen an die IT”), das permanente SOC-Betriebe, fortgeschrittene SIEM-Systeme und stringente Governance für ICT-Risiken verlangt.

Institute müssen nachweisen, dass eingesetzte Systeme — inklusive KI-gestützter Analyse-Werkzeuge — Integrität, Verfügbarkeit, Authentizität und Vertraulichkeit von Daten gewährleisten und angemessen gesteuert und überwacht werden.

Praktisch heißt das: Für Finanz-SOCs in Deutschland sind GPT-5.5-Cyber oder Mythos primär als “fortgeschrittene Analysesysteme” einsetzbar, erfordern aber:

  • Dokumentiertes Modell-Risk-Management (Risikoklassifikation, Kontrollanforderungen, Monitoring)
  • Klare Datenfluss-Kontrolle — kein unkontrollierter Upload von Kundendaten in US-Cloud-Modelle
  • Enge Einbindung in das bestehende BAIT-Compliance-Framework

Wer das nicht aufgesetzt hat, sollte mit der Beschaffung warten, bis BaFin oder die zuständige Aufsicht einen klaren Pfad definiert. Die EU-AI-Act-Konformitätsbewertung kommt da noch obendrauf.

Der 4-Achsen-Q3-Entscheidungsrahmen für DACH-Teams

Vier Achsen — die EN-Version dieses Posts hat drei, die DACH-Realität braucht eine vierte für Souveränität.

Achse 1: Heute verfügbar vs später vs staatliches Review

Heute: GPT-5.5 mit Trusted Access for Cyber. Bewerben, verifiziert werden, deployen. Wenn dein Team-Q3-Deliverable von einer einsatzbereiten KI-augmentierten Capability abhängt, ist das der Pfad mit Wert in diesem Quartal.

Später (90–180 Tage): Claude Mythos via Project-Glasswing-Partnerschaft oder dessen späterer öffentlicher Nachfolger. Anthropics Pattern bei früheren Frontier-Modellen legt nahe, dass Mythos GA einem ähnlichen Bogen wie Claude 4 folgen wird — breite Auslieferung nach mehreren Monaten Partner-Deployment und Red-Team-Review.

Subject to staatliches Review: Was die EO formalisiert, plus EU-AI-Act-Konformitätsbewertung. Pre-EO-Beschaffungsentscheidungen müssen ggf. neu bewertet werden. Bei KRITIS-Betreibern gilt: BSI-Auditfähigkeit von Anfang an mitdenken.

Achse 2: Permissivitäts-Profil

GPT-5.5-Cyber: explizit für verteidiger-permissive Workflows getunt. OpenAIs Tuning senkt Refusal-Raten bei Vulnerability-Identification, Malware-Analyse, Binary-Reverse-Engineering, Detection-Engineering und Patch-Validierung. Autorisiertes Red-Teaming, Pen-Testing und kontrollierte Validierung sind explizit benannt. Offensiver Einsatz bleibt auch für verifizierte Verteidiger blockiert.

Claude Mythos: general-purpose, mit extremer Cyber-Capability. Mythos ist nicht verteidiger-getunt. Es ist ein general-Frontier-Modell, das zufällig sehr gut bei der Schwachstellensuche ist. Die Capability-Decke ist höher als bei GPT-5.5-Cyber, aber die Reibungsfläche für Verteidiger-Workflows ist auch höher.

Die EO würde ein drittes Profil einführen: vetted-permissive. Ein Modell wäre erst nach bestandener Pre-Deployment-Evaluation für permissive Cyber-Workflows einsetzbar. EU-AI-Act-Konformität setzt die Latte zusätzlich höher.

Achse 3: Beschaffungs- und Audit-Posture

Trusted-Access-Framework: Identitätsverifizierung, organisatorische Zertifizierung, Advanced Account Security ab 1. Juni. Gut geeignet für SOC 2, ISO 27001, ISO 27002, BSI C5 — die Kontrollen mappen sauber auf bestehende Audit-Familien.

Project-Glasswing-Partnerschaft: Custom-Vertrag, tiefere Datenverarbeitungs-Diligence, längerer Zyklus. Wenn dein Konzern in der Glasswing-Liste auftaucht oder eine bestehende Anthropic-Beziehung hat, ist der Pfad offen. Sonst nicht — noch nicht.

Die EO würde eine Schicht staatlicher Vor-Deployment-Evaluation einziehen. Das vereinfacht möglicherweise einige Compliance-Aspekte (ein vetteted Modell ist gegenüber einer Aufsichtsbehörde vermutungsweise verteidigbar), verlängert aber Beschaffungszeiten.

Achse 4 (DACH-spezifisch): Souveränität und Datenresidenz

Die Souveränitäts-Dimension fehlt in der US-Berichterstattung komplett. Für DACH:

  • Alle Workloads, die KRITIS-Daten, Bundesdaten, Verteidigungsdaten oder regulierte Finanzdaten berühren, brauchen entweder regionalen Deployment-Anchor (EU-Cloud) oder einen souveränen Pfad (Aleph Alpha, Mistral) — nicht standardmäßiges GPT-5.5-Cyber oder Mythos via Glasswing.
  • Für nicht-sensible Workloads (internes Code-Review auf Open-Source-Repos, Detection-Engineering ohne Kundendaten, Trainingseffekt-Tests) bleibt GPT-5.5-Cyber auch in DACH praktisch.
  • Mische die Pfade explizit. Das ist die zentrale dokumentarische Anforderung — nicht “wir nutzen GPT-5.5-Cyber” oder “wir nutzen Mythos”, sondern “wir nutzen GPT-5.5-Cyber für X, souveräne Lösung für Y, mit klarem Mapping auf BSI-IT-Grundschutz”.

Fünf “diese Woche bewerben”-Patterns nach Team-Profil

1. Internes Red Team mit Trusted-Access-fähiger Identity

Wenn dein Red Team saubere Identitätskontrollen, ein autorisiertes Engagement-Modell und eine Audit-Trail-Capture-Pipeline schon laufen hat — bewirb dich diese Woche für die GPT-5.5-Cyber-Höher-Stufe. Latenz von Bewerbung zu Zugriff ist nach OpenAIs publiziertem Tempo kurz. Lauf einen 30-Tage-Pilot auf der nächsten autorisierten Engagement.

2. Vulnerability-Research-Lab mit bestehender Anthropic-Beziehung

Wenn dein Lab schon direkten Anthropic-Kontakt hat — Research Preview, Glasswing-Mitgliedschaft, Bug-Bounty-Partnerschaft — fordere Mythos-Zugang über diesen Kanal an. GPT-5.5-Cyber als Stop-Gap für die Lücke ist okay. Der zwei-Modell-Ansatz (GPT-5.5-Cyber für permissive Workflows, Mythos für Capability-Decke) ist das, was die größten Forschungslabs fahren werden.

3. KRITIS-SOC mit BSI-Auditpflicht

Bewirb dich für GPT-5.5 mit Trusted Access (die breitere Stufe, nicht die Cyber-Variante). Detection-Engineering und Patch-Validierung sind exakt die Workflows, für die OpenAI das gebaut hat — und die breitere Stufe hat mehr Raum für den Multi-Team-Rollout, den die meisten KRITIS-SOCs brauchen. Mythos’ inkrementelle Capability über GPT-5.5 ist hier weniger material als in der Vulnerability-Forschung. Dokumentiere parallel den BSI-IT-Grundschutz-Bezug und das Modell-Risk-Management nach BAIT (falls Finanz) oder branchenspezifischen Vorgaben.

4. Pen-Test-Beratung mit Multi-Mandanten-Anforderung

GPT-5.5-Cyber plus per-Engagement-Audit-Trail-Capture. Dein Geschäftsmodell ist permission-bounded durch den Mandanten-Auftrag; das Trusted-Access-Framework hilft, glaubhaft zu attestieren, dass Nutzung im Scope blieb. Bau Per-Engagement-Trennung in dein KI-Logging ein. Mythos via Glasswing ist für Multi-Mandanten-Beratungen kein sauberer Fit, bis Anthropic Multi-Tenant-Garantien veröffentlicht.

5. Regulierter SOC (Banken, Versicherer, Energie, Wasser, Gesundheit)

Halten und auf EO + BSI-Auditpfad warten. Pre-EO-Beschaffung ist eine reale Option, wird aber wahrscheinlich unter dem Vetting-Framework und unter parallelen EU-AI-Act-Konformitätsbewertungen neu bewertet werden müssen. Risiko einer Fehlrichtungs-Commitment ist hoch; die Kosten weiterer 60–90 Tage Wartens sind niedrig. Nutze die Zeit, um die interne Pre-Deployment-Evaluations-Capability aufzubauen, das Beschaffungs-Framework auf eine wahrscheinlich-FDA-ähnliche Vetting-Anforderung zu mappen, und mit beiden Anbietern (OpenAI, Anthropic) Pilotgespräche zu führen.

Das eine “nicht deployen”-Anti-Pattern

Ein Cyber-permissives Modell auf einem Stack einsetzen, der Input-Attribution, Per-User-Audit-Trail und Per-Tool-Call-Permission-Scoping nicht erzwungen hat.

Trusted Access setzt voraus, dass du diese hast. Wenn nicht, schafft das Lower-Refusal-Posture Audit-Trail-Lücken, die in deinem nächsten BSI-Audit, deinem nächsten BaFin-Review, deiner nächsten Post-Incident-Forensik auftauchen. Das Modell ist permissiv für verifizierte Verteidiger — die Verifikation ist auf der Deployment-Ebene, nicht nur auf der OpenAI-Account-Ebene. Wenn dein SOC-Analyst das Cyber-permissive Modell unter einem geteilten Service-Account ohne Per-User-Trace nutzen kann, hast du in deinem eigenen Tooling einen Privilege-Escalation-Pfad geschaffen.

Der Fix vor dem Deployment: jeder Cyber-permissive Modell-Call muss die aufrufende Identität, das Tool/den Scope, den Prompt, die Antwort und den Engagement-Kontext loggen. Viele Organisationen müssen das gezielt einbauen. Diese Arbeit muss vor dem ersten Call passieren, nicht nach dem ersten Vorfall.

Vier Signale für die nächsten 30 Tage

Die formale EO-Veröffentlichung. Hassett sagte irgendwann diesen Monat. Der Text wird bestimmen, ob “Vetting” FDA-artig (formelle Pre-Market-Approval) oder NIST-artig (freiwillige Frameworks mit Safe-Harbor-Anreizen) ist. Die zwei haben sehr unterschiedliche Beschaffungs-Implikationen.

Anthropic Mythos GA-Timeline-Aussage. Wenn Anthropic ein Datum veröffentlicht, verschiebt sich der Planungshorizont der Cybersecurity-Branche. Bis dahin ist der “auf Mythos warten”-Pfad open-ended.

OpenAI Trusted-Access erste Refusal-Rate-Zahlen. OpenAI wird wahrscheinlich Refusal-Rate-Daten veröffentlichen, sobald 30+ Tage Nutzung vorliegen. Das ist das empirische Signal, ob GPT-5.5-Cybers Permissivität sich bedeutsam von GPT-5.5 unterscheidet.

BSI / EU-AI-Office-Reaktion. Eine BSI-Bewertung von Mythos und GPT-5.5-Cyber wird in den nächsten 60–90 Tagen kommen — entweder als formelle Cyber-Bedrohungslagebild-Aktualisierung oder als Leitfaden für KRITIS-Operatoren. Das EU AI Office wird parallel zu seinen Konformitätsbewertungs-Standards für Hochrisiko-Modelle nachziehen.

Was dies nicht ersetzt

Es ersetzt nicht deine Defender-Trainings-Pipeline. Ein Cyber-permissives Modell in den Händen eines Junior-Analysten ohne Aufsicht ist ein schnellerer Weg, Fehler zu machen, kein sicherer.

Es ersetzt nicht das richtige Engagement-Scoping. Ein Pen-Test mit falschem Autorisierungs-Scope ist auch dann illegal, wenn die KI beim Scoping geholfen hat.

Es entscheidet keine Policy für dich. Wenn deine Organisation noch nicht entschieden hat, ob KI-Werkzeuge auf Cybersecurity-Arbeit erlaubt sind — aus Datenresidenz-, Export-Kontroll- oder Versicherungsgründen — löst kein Capability-Vergleich das.

Es kann Aufsichtsbehördenverhalten nicht vorhersagen. Die EO ist entworfen, nicht unterzeichnet. EU AI Office hat noch keine Konformitätsbewertungs-Standards für Hochrisiko-LLMs. Behandle jede aktuelle Beschaffungsentscheidung als revidierbar.

Fazit

Drei Produkt-Pfade und eine Regulierungswelle konvergieren in Q3. GPT-5.5 mit Trusted Access for Cyber ist der heute deploybare Choice für die meisten Verteidiger-Teams. GPT-5.5-Cyber ist die höher-permissive Variante für verifizierte Red Teams. Claude Mythos via Project Glasswing ist der Capability-Decken-Pfad für die größten Forschungslabs. Die Vetting-EO und EU-AI-Act-Konformitätsbewertung können alles in den nächsten 60–90 Tagen umformen.

Für die meisten DACH-Teams: bewirb dich diese Woche für Trusted Access, härte deinen Audit-Trail vor dem ersten Cyber-permissiven Prompt, dokumentiere den IT-SiG-3.0-Bezug und behandle jede Beschaffungs-Commitment als revidierbar bis EO und EU-AI-Office-Texte landen. Für KRITIS- und regulierte Finanz-SOCs: warte auf die EO und auf BaFin/BSI-Klärung, nutze die Zeit, um intern Pre-Deployment-Evaluations-Capability aufzubauen.

Für Vorstands-Vorbereitung dieses Quartal: das richtige Exhibit ist ein 1-Pager über Lieferkette, Audit-Trail, IT-SiG-3.0-Bezug und EO-Readiness für den gewählten Pfad. Frame es als “wir haben eine verteidigbare Antwort, egal welche Form die EO annimmt” statt “wir haben den richtigen Anbieter gepickt”. Anbieter bewegen sich; die Audit-Posture trägt.

Wenn du tiefer in die operative Seite einsteigen willst — Audit-Trail bauen, Autorisierung richtig scopen, SOC gegen das neue Permissivitäts-Profil härten — schau dir unseren Kurs zu KI-Sicherheit / Cybersecurity und den Kurs zu Informationssicherheit mit KI an.

Quellen

Echte KI-Skills aufbauen

Schritt-für-Schritt-Kurse mit Quizzes und Zertifikaten für den Lebenslauf