Copilot Critique: GPT schreibt, Claude prüft — so funktioniert's

Microsoft hat gerade zugegeben, dass ein KI-Modell allein nicht reicht.

Klingt erstmal nach einem PR-Problem, oder? Der größte OpenAI-Investor sagt im Grunde: „GPTs Recherche-Berichte sind nicht gut genug — also lassen wir Claude drüberschauen, bevor ihr sie seht." Zwei konkurrierende KI-Modelle, gebaut von zwei konkurrierenden Unternehmen, arbeiten im selben Produkt zusammen.

Und das Ergebnis ist nicht klein: 13,8 % besser als jedes einzelne KI-Recherche-Tool auf dem Markt.

Was ist Copilot Researcher überhaupt?

Kurzer Kontext für alle, die nicht im Microsoft-Ökosystem unterwegs sind: Copilot Researcher ist ein KI-Recherche-Tool innerhalb von Microsoft 365 Copilot — dem 30-Dollar-Zusatzabo, das KI in Word, Excel, PowerPoint, Outlook und Teams bringt. Researcher erledigt dabei die tiefen Recherche-Aufgaben: Du stellst eine komplexe Frage, und er durchsucht das Web, liest Quellen und schreibt einen mehrseitigen Bericht mit Quellenangaben.

Stell dir das wie einen Recherche-Assistenten vor, der 50 Artikel liest und dir eine Zusammenfassung schreibt. Vor diesem Update hat GPT das alleine gemacht. Jetzt sind es zwei Assistenten — und sie prüfen gegenseitig ihre Arbeit.

Critique-Modus: GPT schreibt, Claude prüft

So funktioniert Critique in der Praxis:

Du stellst eine Recherche-Frage. Zum Beispiel: „Vergleiche die fünf besten CRM-Plattformen für mittelständische Fertigungsunternehmen — mit Preisen, Implementierungsdauer und Kundenzufriedenheit."
GPT recherchiert. Es durchsucht das Web, liest Quellen, plant die Berichtsstruktur und schreibt einen vollständigen Entwurf mit Quellenangaben.
Claude prüft den Entwurf. Bevor du irgendetwas siehst, überprüft Anthropics Claude-Modell den Bericht unabhängig auf Faktengenauigkeit, Quellenzuverlässigkeit, Vollständigkeit und Zitierqualität. Es markiert schwache Behauptungen, dünne Beweislage und Lücken.
Der Bericht wird überarbeitet. Basierend auf Claudes Review wird der Bericht verbessert, bevor er bei dir ankommt.

Das Ganze passiert automatisch. Du musst nicht wählen, welches Modell was macht. Du bekommst einfach einen besseren Bericht.

Und hier wird’s halt echt interessant: Microsoft hat einem Konkurrenz-Modell — Claude, gebaut von Anthropic — die finale redaktionelle Autorität darüber gegeben, ob die Ausgabe seines eigenen 13-Milliarden-Dollar-Partners gut genug zum Ausliefern ist.

Council-Modus: Zwei Berichte, ein Vergleich

Council geht einen anderen Weg. Statt einer-schreibt-einer-prüft erstellen zwei KI-Modelle jeweils einen vollständigen, unabhängigen Bericht zur gleichen Frage. Dann schreibt ein drittes Modell einen „Begleitbrief", der vergleicht — wo stimmen sie überein, wo nicht, und welche einzigartigen Erkenntnisse bringt jedes Modell.

Du bekommst beide Berichte plus den Vergleich. Wenn GPT also die Preisdaten betont und Claude die Implementierungsrisiken — siehst du beide Perspektiven und kannst selbst entscheiden, was für dich wichtiger ist.

Das ist wie eine Zweitmeinung beim Arzt — nur dass beide Ärzte im selben Büro sitzen und jemand eine Zusammenfassung geschrieben hat, wie sich ihre Diagnosen unterscheiden.

Die Zahlen: 13,8 % besser als alles andere

Microsoft hat Critique gegen den DRACO-Benchmark getestet — ein standardisierter Test für KI-Recherche-Qualität mit 100 komplexen Aufgaben aus 10 verschiedenen Bereichen. DRACO wurde übrigens von Perplexity entwickelt — was das nächste Ergebnis etwas ironisch macht.

System	DRACO-Score
Copilot Researcher + Critique	57,4
Perplexity Deep Research	50,4
Claude Opus 4.6 (einzeln)	43,3
GPT o3 (einzeln)	42,7

Weder GPT noch Claude ist alleine beeindruckend. GPT: 42,7. Claude: 43,3. Aber zusammen — einer schreibt, einer prüft — plötzlich 57,4. Die Lücke öffnet sich erst, wenn sie als Team arbeiten.

Die größten Verbesserungen:

Breite und Tiefe der Analyse (+3,33 Punkte)
Darstellungsqualität (+3,04 Punkte)
Faktengenauigkeit (+2,58 Punkte)

Gerade der letzte Punkt ist für Unternehmen entscheidend. Faktengenauigkeit — das ist genau das, was Enterprise-Kunden nachts wach hält: polierte Berichte, die gut aussehen, aber auf schwacher Beweislage stehen.

Warum das für den deutschen Markt relevant ist

Deutschland ist einer der wichtigsten Microsoft-Enterprise-Märkte weltweit. Millionen von Arbeitsplätzen laufen auf Microsoft 365. Und genau diese Unternehmen haben ein konkretes Problem: KI-generierte Berichte, denen man nicht blind vertrauen kann.

Critique adressiert das direkt. Wenn ein zweites Modell die Quellen, Fakten und Vollständigkeit prüft, bevor der Bericht beim Mitarbeiter landet — das ist für deutsche Unternehmen mit ihren hohen Qualitätsansprüchen tatsächlich relevant.

Dazu kommt: In Council-Modus können Unternehmen transparent sehen, wo KI-Modelle sich einig sind und wo nicht. Das ist nicht nur ein Feature — das ist ein Argument für die interne Compliance-Abteilung.

Was es nicht kann

Nur im Frontier-Programm. Du brauchst eine Microsoft 365 Copilot-Lizenz (ca. 30 $/Nutzer/Monat) plus Zugang zum Frontier Early-Access-Programm. Dein IT-Admin muss außerdem den Zugriff auf Drittanbieter-Modelle (Claude) in den Tenant-Einstellungen aktivieren.

25 Abfragen pro Monat. Das ist das aktuelle Limit für Critique und Council. Für Heavy-User ist das etwa eine Abfrage pro Arbeitstag. Für wichtige Berichte reicht es — für alles andere nicht.

Immer noch KI-Recherche, nicht menschliche Recherche. Critique reduziert Halluzinationen und schwache Quellenangaben — es eliminiert sie nicht. Claude kann offensichtliche Fehler fangen, aber keine Behauptungen verifizieren, die Domänenwissen oder Zugang zu proprietären Datenbanken erfordern.

Langsamer als normaler Copilot. Zwei Modelle nacheinander laufen zu lassen dauert halt länger als eins. Microsoft hat keine Speed-Benchmarks veröffentlicht, aber rechne mit spürbar längerer Wartezeit.

Wie du Zugang bekommst

Microsoft 365 Copilot-Lizenz (ca. 30 $/Nutzer/Monat)
Frontier-Programm-Anmeldung (über deinen Microsoft-Ansprechpartner)
IT-Admin muss Drittanbieter-Modellzugriff aktivieren
Copilot Chat öffnen → Tools → Researcher → „Auto" im Modell-Picker wählen

Fazit

Microsoft hat bewiesen, dass zwei KI-Modelle, die sich gegenseitig prüfen, bessere Arbeit liefern als jedes einzelne allein. Das ist nicht trivial — es ändert, wie wir über KI-Genauigkeit nachdenken sollten.

Für Enterprise-Teams, die bereits Copilot bezahlen, ist der Zugang zum Frontier-Programm ein No-Brainer. Die 13,8 % Verbesserung bei der Genauigkeit ist real — und zielt genau auf das, was am meisten zählt: Ob man dem Bericht genug vertraut, um danach zu handeln.

Für alle anderen ist die Erkenntnis simpler, aber genauso nützlich: Wenn du wichtige Entscheidungen auf KI-generierter Recherche aufbaust — hol dir eine Zweitmeinung. Von einer anderen KI. Die Modelle sind überraschend gut darin, die Fehler des anderen zu finden — und überraschend schlecht darin, ihre eigenen zu finden.

Quellen:

Copilot Critique: GPT schreibt, Claude prüft — so funktioniert's

Inhaltsverzeichnis

Was ist Copilot Researcher überhaupt?

Critique-Modus: GPT schreibt, Claude prüft

Council-Modus: Zwei Berichte, ein Vergleich

Die Zahlen: 13,8 % besser als alles andere

Warum das für den deutschen Markt relevant ist

Was es nicht kann

Wie du Zugang bekommst

Fazit

Echte KI-Skills aufbauen

KI-Grundlagen

ChatGPT Meisterkurs

Besser schreiben mit KI