Voice-KI im Recruiting: Audit vor dem EU AI Act

EU AI Act stuft KI-Recruiting ab August 2026 als Hochrisiko ein. Bußgeld bis 35 Mio. Euro. So machst du das Audit vor der ersten Voice-Bewerbung.

Am Montag, 5. Mai, hat Greenhouse — die Bewerber-Tracking-Plattform, die unter den meisten mittelständischen US-Recruiting-Teams sitzt — angekündigt, das Voice-KI-Interview-Startup Ezra AI Labs zu übernehmen. Ezra ruft Bewerber an, führt ein strukturiertes Telefoninterview gegen ein rollenspezifisches Bewertungsraster und schreibt Transkript und Score zurück ins ATS. Zwei Tage später, am 7. Mai, hat Greenhouse separat Greenhouse MCP angekündigt — ein Layer, der ab Juni 2026 KI-Workflows direkt in den Greenhouse-Daten ermöglicht.

Für deutsche Personalabteilungen ist die wirkliche Geschichte aber nicht die US-Akquisition. Sie ist der Stichtag 2. August 2026.

Ab diesem Datum wird der EU AI Act für Hochrisiko-KI-Systeme bindend — und das EU-Klassifikationssystem stuft KI im Personalwesen explizit als Hochrisiko ein. Voice-KI-Telefoninterviews fallen exakt in diese Kategorie. Verstöße können mit bis zu 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes geahndet werden.

Übersetzt für eine Personalleitung in einem Mittelständler mit 50 bis 500 Mitarbeitern: Voice-KI-Telefoninterviews werden in Q3 2026 vom Experiment zum Standard-Erstrunden-Werkzeug. Wenn dein Team eines anschaltet — egal ob Ezra nach dem Greenhouse-Closing, HireVue, Paradox Olivia, BrightHire oder ein deutscher Anbieter — gibt es eine Aufgabe, die VOR dem ersten Bewerber-Anruf erledigt sein muss.

Du musst vier Dinge prüfen und eine einseitige Richtlinie schreiben. Das dauert 30 bis 45 Minuten. Bis Dienstag fertig.

Was sich in den letzten 14 Tagen geändert hat

Drei Dinge, die das “vielleicht später”-Argument für 2026 unhaltbar machen.

Greenhouse-Ezra schließt diesen Quartal ab. Sobald das passiert, ist Voice-KI-Screening eine Default-Option innerhalb des in DACH am häufigsten genutzten mittelständischen ATS in Nordamerika — und Greenhouse hat eine signifikante Kundenbasis bei deutschen Tochtergesellschaften und mittelständischen DACH-Unternehmen. Du musst nicht mehr Anbieter evaluieren. Es wird ein Schalter im bestehenden System.

Greenhouse-Pressemitteilung vom 5. Mai zur definitiven Übernahme von Ezra AI Labs — die Headline, die Voice-KI-Interviews in das verbreitetste mittelständische ATS Nordamerikas bringt Quelle: Greenhouse Newsroom

Greenhouse MCP rollt im Juni aus. Das heißt: Recruiter bei Greenhouse-Kunden können bald über ein Chat-Interface fragen — “Zeig mir den Kandidatenpool dieser Woche, mit Red-Flag-Patterns aus den Voice-KI-Transkripten” — und das System zieht aus Kandidaten-Daten, Voice-KI-Transkripten und Pipeline-Daten gleichzeitig. Voice-KI-Output sitzt nicht mehr im Silo, sondern ist direkt in deinen KI-Workflows verbaut.

Der EU AI Act tritt am 2. August 2026 für Hochrisiko-KI in Kraft. Recruiting-KI ist explizit Hochrisiko. Konformitätsbewertung durch zertifizierte Prüfstellen wird ab dann Pflicht. Die DSGVO bleibt parallel anwendbar, insbesondere bei biometrischen Daten — und Voice-KI verarbeitet bei jedem Anruf biometrische Stimm-Daten, was die Anforderungen aus DSGVO Art. 9 (besondere Kategorien personenbezogener Daten) und Art. 22 (automatisierte Entscheidungen) zusätzlich aktiviert.

Diese Wand kommt nicht in 18 Monaten. Sie kommt in zwölf Wochen.

Das 4-Fragen-Audit (30 Minuten, vor dem ersten Anruf)

Das Audit funktioniert für jeden Voice-KI-Screener — Ezra, Paradox Olivia, HireVue, BrightHire, deutsche Anbieter. Der Anbieter ist sekundär, die vier Fragen sind primär. Geh durch alle vier, bevor der erste Bewerber einen KI-Anruf bekommt.

1. Bewerber-Fairness: bildet das Bewertungsraster — direkt oder indirekt — ein geschütztes Merkmal ab?

Ezras Design (und das der meisten Mitbewerber) führt zuerst ein Setup-Gespräch mit dem Recruiter und der Hiring Managerin, um das rollenspezifische Bewertungsraster zu bauen. Dieses Raster wird dann das Scoring-Instrument der KI. Heißt: was im Raster an Bias steckt, steckt in jedem Score, in jeder Skalierung, mit dem Schein der Objektivität.

Die Fünf-Fragen-Prüfung im Klartext:

  • Bewertet das Raster Stimmqualitäten (Lautstärke, Akzent, Klarheit, Sprechgeschwindigkeit), die nicht jobrelevant sind? Stimmqualitäts-Scores funktionieren als Proxy für Hörbehinderungen, Sprechbehinderungen, Migrationshintergrund — alles geschützte Merkmale unter dem AGG (Allgemeines Gleichbehandlungsgesetz) und der EU-Antidiskriminierungsrichtlinie.
  • Bewertet es “kulturelle Passung” über Sprache, die auf Schule, Wohnort oder Postleitzahl mappt? Das ist ein Proxy für ethnische Herkunft, soziale Herkunft, sozioökonomischen Status.
  • Bewertet es vorherige Arbeitgeber-Reputation? Klassen-Proxy.
  • Bewertet es “Selbstbewusstsein” oder “Energie”? Beide korrelieren stark mit Geschlechterausdruck und sind klassische Bias-Vektoren.
  • Bewertet es Sprachfluenz über das hinaus, was die Stelle braucht? Eine Verkäufer-Stelle braucht keinen TestDaF-C1.

Wenn das Raster eines davon enthält: Vor dem ersten Anruf rausoperieren. Die Lösung ist meist Subtraktion, nicht Addition.

2. Strukturiertes Raster: archiviert, geprüft, benchmarked?

Das Raster, das die Voice-KI für eine Rolle baut, wird für jede Bewerberin auf dieser Rolle wiederverwendet. Wenn sich die Rolle ändert, muss das Raster geändert werden. Wenn die Stellenbeschreibung sich verschiebt, muss neu versioniert werden. Wenn der Recruiter geht, muss die Nachfolgerin das Raster prüfen können.

Drei Häkchen:

  • Das Raster liegt im ATS (Greenhouse, Personio, SAP SuccessFactors, Workday) und ist mit der Req-ID der Stelle verknüpft — nicht in einem anbieterspezifischen Dashboard, dessen Zugang du verlieren könntest.
  • Eine menschliche Person prüft es mindestens monatlich. Kalender-Termin, wiederkehrend, Owner zugewiesen. Die Prüfung schaut, ob das Raster noch zur aktuellen Stellenbeschreibung passt.
  • Quartalsweises Benchmarking gegen tatsächliche Einstellungs-Outcomes — sagt der Score eine 90-Tage-Performance voraus oder etwas anderes?

Punkt 3 ist der Punkt, den die meisten Teams überspringen. Es ist auch der, nach dem Aufsichtsbehörden bei Disparate-Impact-Analysen zuerst fragen.

3. Bewerber-Erfahrung: Aufklärung, Wiederholung, Barrierefreiheit

Drei Dinge, die jedes Voice-KI-Screen vor Live-Schaltung haben muss:

Vor-Anruf-Aufklärung, dass es ein KI-Gespräch ist. Klartext, vor Beginn des Gesprächs: “Sie sprechen mit einer KI namens [Name]. Es ist kein Mensch.” Das ist genau die Anforderung, die DSGVO Art. 22 (automatisierte Entscheidungen) und die EU-AI-Act-Hochrisiko-Klassifikation gemeinsam erzwingen. Die Aufklärung muss explizit, in Schriftform, vor Gesprächsbeginn erfolgen. Eine Zeile in der Datenschutz-Erklärung gilt nicht.

Eine Do-Over-Regelung. Telefonleitungen brechen ab. Der Hund bellt. Das Kind kommt rein. Die Voice-KI versteht manchmal falsch. Bewerber müssen unter definierten Bedingungen einen weiteren Versuch beantragen können, und es muss einen dokumentierten Eskalationspfad zu einem Menschen geben, wenn das KI-Screen aus nicht-bewerber-bedingten Gründen scheitert.

Einen Barrierefreiheits-Pfad. Das ist eine BGG-Vorgabe (Behindertengleichstellungsgesetz), keine Nice-to-have. Bewerber mit Hör-, Sprech-, kognitiven Beeinträchtigungen oder Angsterkrankungen, denen ein reines Voice-Format unzumutbar ist, müssen ein anderes Format verlangen können — text-basiert asynchron, Video, oder live mit einem Menschen. Der Pfad muss am gleichen Punkt sichtbar sein wie die KI-Aufklärung, nicht in einer separaten FAQ versteckt. Die Default-Eskalation geht zu einer menschlichen Person mit Override-Befugnis.

4. Audit-Trail: Aufnahmen, Scores, Flags, Aufbewahrung

Die Spur, die du für jeden KI-Anruf brauchst:

  • Audio-Aufnahme oder Transkript, mindestens für die längere von 1 Jahr oder die für deine Branche geltende Aufbewahrungspflicht.
  • Score und die Raster-Version, die ihn produziert hat.
  • Aufklärungs-Zeitstempel und Einwilligungs-Erfassung (DSGVO Art. 7).
  • Menschlicher Eskalationspfad mit dokumentiertem SLA — unsere Empfehlung: jeder geflaggte Anruf bekommt eine menschliche Prüfung innerhalb von 24 Stunden.
  • Daten-Verarbeitungs-Auftrag (AVV) mit dem Voice-KI-Anbieter, der ausdrücklich die biometrische Datenverarbeitung adressiert (DSGVO Art. 9).

Warum das wichtig wird: Wenn ein Bewerber eine Entscheidung anfechtet (und das wird passieren — laut Greenhouse-Daten geben 46 % aller Kandidaten an, dass ihr Vertrauen in den Hiring-Prozess in den letzten 12 Monaten gesunken ist), brauchst du die Spur. Wenn ein Datenschutzbeauftragter fragt, brauchst du die Spur. Wenn die Bundesnetzagentur, das Bundeskartellamt oder eine Landesdatenschutzbehörde unter dem AI-Act-Durchsetzungsregime nachfragt, brauchst du die Spur. Wenn deine CISO fragt, warum Audio-Aufnahmen von Bewerber-Anrufen in einer US-Anbieter-Cloud liegen, brauchst du die Datenresidenz-Klausel.

Die einseitige Voice-KI-Recruiting-Richtlinie

Sobald das Audit sauber ist, schreib die Richtlinie. Eine Seite. Der Punkt ist nicht, einen Anwalt zufriedenzustellen — sondern lesbar zu sein für die nächste Recruiterin, die ins Team kommt. Acht Punkte, je zwei Sätze:

  1. Welche Stellen Voice-KI-Screens nutzen. Listen. Wenn “alle”, dann “alle”.
  2. Welcher Anbieter. Ein Produkt, nicht “verschiedene Tools”.
  3. Raster-Prüfungs-Kadenz. Monatliche Prüfungs-Verantwortliche, quartalsweise Benchmark-Verantwortliche.
  4. Aufklärungs-Skript. Wortwörtlicher Text, den der Bewerber vor dem Gespräch sieht.
  5. Do-Over-Regelung. Bedingungen und Limits.
  6. Barrierefreiheits-Pfad. Wortwörtlicher Text + die menschliche Kontaktperson.
  7. Audit-Trail. Was gespeichert wird, wo, wie lange, wer Zugriff hat.
  8. Eskalations-SLA. Time-to-Human-Review für geflaggte Anrufe.

Das ist das Dokument, das deine CISO, dein Datenschutzbeauftragter, dein Arbeitsrecht-Anwalt und dein Betriebsrat jeweils eine Kopie davon haben wollen. Drucken. Unterschreiben. Im ATS hinterlegen. Wenn die EU-AI-Act-Konformitätsbewertung am 2. August startet, ist das die erste Anlage.

Was bedeutet das für dich

Wenn du 1-3-Personen-In-House-Recruiting in einem 50-500-Mitarbeiter-Mittelständler bist: Das Audit ist deine Q3-Aufgabe, nicht “später”. Setz dir diese Woche einen 90-Minuten-Working-Block. Geh die vier Fragen für den Anbieter durch, den die Geschäftsführung im Auge hat (oder den Greenhouse-Ezra-Pfad nach Closing, wenn ihr Greenhouse-Kunde seid). Schreib die Richtlinie. Wenn ein Bewerber-Anwalt zum ersten Mal nach dem Raster und dem Audit-Trail fragt, soll dieses Dokument im ATS, unterschrieben und datiert, schon liegen.

Wenn du Hiring Manager bist, der Reqs besitzt, aber nicht hauptberuflich Recruiting macht: Deine Rolle ist das Raster-Bauen-Setup-Gespräch. Wenn der Voice-KI-Anbieter im Onboarding fragt — “was sind die Must-Haves, was die Nice-to-Haves, was die Disqualifizierer” — wird deine Antwort zum Bewertungsraster der KI. Nimm die 20 Minuten ernst. Nicht ungenau “Kommunikationsfähigkeit” sagen. Spezifische Verhaltenssignale, die du selbst in einer Erstrunde hören würdest.

Wenn du Talent-Ops-Lead in einem Mittelständler mit überwiegend Stundenkräften bist: Voice-KI-Screens sind in deiner Kategorie am sinnvollsten — High-Volume-Einstiegsstellen mit strukturierten Fragen. Sie sind aber auch dort, wo das Bias-Risiko am höchsten ist, weil der Bewerberpool auf jeder demografischen Achse vielfältiger ist. Das Audit ist nicht optional — es ist der Unterschied zwischen sauberer Skalierung und einer AGG-Klage.

Wenn du Personalberater oder Headhunter bist, der Kandidaten in Greenhouse-Kunden platziert: Dein Geschäftsmodell ändert sich in Q3. Die Erstrunde ist jetzt wahrscheinlich ein KI-Anruf, den das System deines Kunden ohne dich fährt. Führ diese Woche eine Gespräch über die Re-Pricing-Logik mit deinen Top-5-Kunden. Zwei tragfähige Repositionierungs-Pfade: senke deine Vermittlungsgebühr, weil du die Erstrunde nicht mehr machst — oder ergänze einen “Voice-KI-Screen-QA”-Service-Tier, in dem du das KI-Scoring prüfst und vor der Hiring-Manager-Übergabe Auffälligkeiten flaggst.

Wenn du KMU-Inhaber bist, der gelegentlich selbst einstellt: Du bist noch nicht Zielgruppe der Voice-KI-Screens — die Per-Anruf-Ökonomie funktioniert unter ~30 Einstellungen pro Jahr nicht. Aber du solltest aus zwei Gründen Bescheid wissen: (1) wenn du einstellst, wurden deine Bewerber bei anderen Arbeitgebern eventuell schon KI-vorgescreent, und diese Erfahrung färbt ihre Interaktion mit dir; (2) Bewerber bereiten sich aktiv auf KI-Interviews vor — KI-Interview-Coaching ist als Suchanfrage in Deutschland im letzten Jahr stark gewachsen. Deine Live-Interviews werden gegen diese Vorbereitung verglichen.

Was das Audit nicht beheben kann

Das 30-Minuten-Audit bringt dich zu “wir können das verteidigen, wenn gefragt”. Es bringt dich nicht zu “das ist das richtige Hiring-Tool für unser Unternehmen”. Ehrliche Limits:

Es sagt dir nicht, ob Voice-KI-Screens deine Einstellungen verbessern. Das braucht 90 Tage Performance-Daten von tatsächlich eingestellten Personen, korreliert gegen den KI-Score. Roll mit einer Stelle aus, nicht mit allen am Tag eins.

Es behebt keinen Modell-Bias des Anbieters. Wenn das Voice-KI-Modell nachweislich auf akzentuierter Sprache schlechter performt (mehrere Anbieter haben dieses Profil), hilft kein Raster-Audit. Lies die veröffentlichten Bias-Audits des Anbieters. Wenn keine veröffentlicht sind, ist das ein Red Flag größer als dein Raster.

Es ersetzt nicht die menschliche Eskalation. Das Audit verlangt, dass geflaggte Anrufe an Menschen gehen. Wenn dein Hiring-Volumen wächst und die KI-Flags wachsen mit, muss das menschliche Eskalations-Team proportional wachsen. KI-Screening ist keine “kostenlose” Erstrunde — es ist eine andere Kosten-Form.

Es liest die Landesdatenschutz-Lage nicht für dich. Die DSGVO ist bundesweit gleich, aber die Landesdatenschutzbehörden interpretieren unterschiedlich. Bayern (BayLDA), Baden-Württemberg (LfDI), Berlin (BInBDI) und NRW (LDI) haben in der Vergangenheit unterschiedliche Auslegungen zu KI-im-HR-Kontext geliefert. Wenn deine Bewerber über Bundesländer streuen, kläre mit deinem Datenschutzbeauftragten ab, welche Landesbehörde im Streitfall zuständig wäre.

Das Fazit

Voice-KI-Telefoninterviews überschreiten gerade die Linie von “Tool, das ein paar Teams ausprobieren” zu “Default-Erstrunde im verbreitetsten mittelständischen ATS”. Greenhouse-Ezra ist das Signal. Dein Team wird in Q3 gefragt werden, ob ihr eines anschalten wollt. Spätestens am 2. August 2026 wird der EU AI Act den regulatorischen Rahmen setzen.

Die billigste Versicherung, die du vor dieser Entscheidung kaufen kannst: das 30-Minuten-Audit und die einseitige Richtlinie. Geh die vier Fragen durch. Schreib das achteilige Dokument. Häng es an die Req. Wenn das Compliance-Team, der Anwalt für Arbeitsrecht, die CISO oder der Bewerber-Anwalt fragt — du hast die Antwort schriftlich.

In 90 Tagen führst du dann den Nach-Einstellungs-Benchmark-Pass. Das ist das Gespräch darüber, ob die KI dir tatsächlich besser einstellen hilft, oder einfach mehr Bewerbungen verarbeitet.

Wer einen tieferen Plan zum sicheren Einsatz von KI im HR-Umfeld will — inklusive der Bias-Audit-Routine, der Aufklärungs-Skript-Bibliothek und der Nach-Einstellungs-Benchmark-Methode — findet ihn in unserem EU-AI-Act-Praxis-Kurs.

Quellen

Echte KI-Skills aufbauen

Schritt-für-Schritt-Kurse mit Quizzes und Zertifikaten für den Lebenslauf