Eine wegweisende Studie mit mehr als vier Millionen Bewerbungen zeigt, wie KI-Tools für die Personalbeschaffung ihre Voreingenommenheit verbergen, warum eine einzige Ablehnung zu einer allgegenwärtigen Ablehnung werden kann und weshalb eine unabhängige Bewertung auf Positionsebene keine Option mehr ist.
Eine neue Studie hat gerade etwas getan, von dem die KI-Recruiting-Branche jahrelang behauptet hat, es sei unnötig: Sie hat hingesehen.
Forschende aus Stanford, Chapman und Northeastern analysierten mehr als 4 Millionen Bewerbungen von rund 3 Millionen Bewerbern bei 156 Arbeitgebern – die meisten davon Unternehmen mit einem Jahresumsatz von fünf Milliarden Dollar oder mehr –, die alle von einem einzigen Anbieter geprüft wurden. Die Studie mit dem Titel „Algorithmic Monocultures in Hiring“ wird nächsten Monat auf der ACM Conference on Fairness, Accountability, and Transparency in Montreal vorgestellt. Der erste Satz ihrer Ergebnisse ist unmissverständlich: Die Autoren berichten von „eindeutigen rassischen Disparitäten“ bei den Empfehlungen des Algorithmus.
Die Schlagzeilenzahl ist die, die sich verbreitet: Mehr als 25 % aller Bewerbungen von Schwarzen Bewerbern, also fast 40.000 Einreichungen, betrafen Positionen, bei denen das Tool Ergebnisse lieferte, die nach den Richtlinien der US-Bundesbehörden als diskriminierend gelten. Asiatische Bewerber waren in vergleichbarem Umfang betroffen: Fast 15 % ihrer Bewerbungen fielen in dieselbe Kategorie. Das ist der Teil, den jeder teilen wird. Wichtiger für jeden, der diese Systeme betreibt oder kauft, ist jedoch die Frage, wie die Disparität so lange verborgen bleiben konnte.
Sie haben die Mathematik nicht widerlegt. Sie haben die Fragestellung geändert.
Der Anbieter in dieser Studie, die spielebasierte Bewertungsplattform Pymetrics, hatte seine eigene Fairness-Analyse durchgeführt und nichts gefunden, was die Schwelle rechtlicher Bedenken erreichte. Die Forschenden stellten diese Berechnung nicht in Frage. Sie bestritten jedoch die Fragestellung, die damit beantwortet wurde.
Pymetrics fasste alle Bewerber und alle Ergebnisse über alle Arbeitgeber und alle Rollen hinweg zusammen und prüfte dann das Aggregat auf Disparitäten. Das von Stanford geleitete Team tat stattdessen, was das US-Antidiskriminierungsgesetz tatsächlich verlangt: Sie testeten jede der 1.746 einzelnen Positionen für sich genommen anhand der Vier-Fünftel-Regel der Equal Employment Opportunity Commission. Auf diese Weise gemessen, zeigten 10,62 % der Positionen eine nachteilige Auswirkung (Adverse Impact) auf Schwarze Bewerber, und 30 % der Schwarzen Bewerber hatten sich auf mindestens eine dieser Positionen beworben.
“Die Aggregation einzelner Positionen zu Berufsgruppen reicht für sich genommen aus, um die Diskriminierung auf Positionsebene aus dem Bericht verschwinden zu lassen. Die Voreingenommenheit war nie weg. Sie wurde einfach herausgemittelt.”
Dies ist der wichtigste Punkt der gesamten Studie, und er hat nichts mit einem einzelnen Anbieter zu tun. Ein System kann auf Portfolio-Ebene bestehen und auf der Ebene, auf der eine reale Person tatsächlich abgelehnt wird, wiederholt versagen.
Ich habe dasselbe Argument in jeder Fairness-Sitzung, die ich leite, vorgebracht, normalerweise vor einem Publikum, das die bequeme Antwort hören will. Ein einziger aggregierter Fairness-Score ist kein Beweis für Fairness. Er ist oft das Gegenteil: eine Zahl, die – manchmal unbeabsichtigt – so konstruiert ist, dass sie beruhigend wirkt. Der Kontext macht aus einer Metrik, die man „sich ansehen kann“, eine Entscheidungsgrundlage, und die Kontexteinheit ist hier die Position, nicht die Plattform.
Der algorithmische Blackball
Das zweite Ergebnis ist das, was Arbeitssuchenden Sorgen bereiten sollte, und es ist wirklich neu. Da derselbe Anbieter Kandidaten für viele verschiedene Arbeitgeber bewertet und ein Algorithmus bei gleicher Eingabe immer die gleiche Ausgabe liefert, sagt eine Ablehnung durch ein Unternehmen die Ablehnung durch das nächste weitaus besser voraus, als es der Zufall erlauben würde. Die Forschenden nennen dies systemische Ablehnung. Unter den Bewerbern, die sich auf zehn von demselben Anbieter geprüfte Positionen beworben haben, wurden 4 % von allen zehn abgelehnt – eine zu hohe Rate, um ein Zufall zu sein, wenn jeder Arbeitgeber unabhängig entscheiden würde.
Der Mechanismus ist banal, und das macht ihn so gravierend. Wenn ein Kandidat die Assessment-Spiele spielt, werden seine Ergebnisse gespeichert und bis zu 330 Tage lang wiederverwendet. Zwei Arbeitgeber, die denselben Anbieter nutzen, geben einem Bewerber keine zwei Bewertungen. Sie geben zweimal dieselbe Bewertung ab. Das Team nennt das Ergebnis einen „algorithmic blackball“, ein Konzept, das in der Literatur zwar theoretisiert, aber noch nie in diesem Umfang in live eingesetzten Daten beobachtet wurde. Ihre Simulation bezifferte die Kosten für die Bewerber: Um die Wahrscheinlichkeit, überall ausgeschlossen zu werden, unter 0,1 % zu drücken, müsste sich ein Kandidat auf mindestens 25 Positionen bewerben – mehr als doppelt so viele wie die zehn, die ausreichen würden, wenn jede Entscheidung wirklich unabhängig wäre.
“Ein menschlicher Recruiter hat einen schlechten Tag, einen blinden Fleck, eine andere Stimmung am Dienstag. Dieses Rauschen ist, paradoxerweise, eine Art Schutz. Eine Monokultur beseitigt es. Ein Modell, ein Urteil, wiederholt über einen ganzen Arbeitsmarkt hinweg.”
Ein Anbieter, viele Arbeitgeber: das Monokultur-Problem
Deshalb spricht der Titel der Studie von Monokultur und nicht von Voreingenommenheit. Das tiefere Risiko ist die Konzentration. Die Autoren stellen fest, dass im Mai 2023 mehr als 60 % der Fortune-100-Unternehmen und acht der zehn größten US-Bundesbehörden bei der Personalbeschaffung auf die Algorithmen eines einzigen dominanten Anbieters vertrauten. Wenn ein Modell so vielen Entscheidungen zugrunde liegt, sind seine Eigenheiten kein Produktfehler mehr, sondern werden zur Marktinfrastruktur. Ein Mangel an einer Stelle ist nun gleichzeitig ein Mangel überall, und ein einziger Ausfallpunkt kann die Personalbeschaffung bei Tausenden von Arbeitgebern auf einmal stören.
Voreingenommenheit in einer Monokultur betrifft nicht nur mehr Menschen. Sie betrifft sie auf korrelierte Weise, was ein anderes und schwierigeres Problem ist als die gleiche Anzahl unabhängiger Fehler.
Die regulatorische Schraubzwinge zieht sich zu
Diese Studie entstand nicht im luftleeren Raum. Sie erschien Wochen, bevor sich die Regeln ändern.
In den Vereinigten Staaten war das Local Law 144 von New York City die erste Verordnung, die direkt auf automatisierte Einstellungstools abzielte. Die Forschenden fanden heraus, dass die dazugehörigen Leitlinien die Prüfer anweisen, Daten über Positionen und Arbeitgeber hinweg zu bündeln – genau die Aggregationsmethode, die, wie sie zeigen, Disparitäten verschleiern kann. Ein Compliance-Regime kann erfüllt werden, während der zugrunde liegende Schaden vollständig erhalten bleibt. Diese Lücke sollte jeden beunruhigen, der ein Häkchen im Audit als Beweis für Fairness betrachtet.
In Europa ist die Haltung klarer. Der EU AI Act stuft KI, die bei der Personalbeschaffung und Einstellung eingesetzt wird, standardmäßig als hochriskant ein, und die Verpflichtungen für Hochrisikosysteme treten am 2. August 2026 in Kraft. Das ist kein ferner Horizont. Für jede Organisation, die in der EU tätig ist oder dort Personal einstellt, werden die Anforderungen an Risikomanagement, Data Governance, Transparenz, menschliche Aufsicht und Überwachung nach dem Inverkehrbringen bald zu gesetzlichen Pflichten statt zu guten Absichten. Eine von unabhängigen Forschenden aufgedeckte Studie, die Diskriminierung auf Positionsebene nachweist, ist eine Vorschau auf genau die Beweise, nach denen Regulierungsbehörden und Kläger suchen werden.
Was das bedeutet, wenn Sie KI bei der Personalbeschaffung einsetzen
Aus der Forschung ergeben sich vier praktische Schlussfolgerungen.
- 01Messen Sie nachteilige Auswirkungen (Adverse Impact) auf Positionsebene, nicht auf Portfolio-Ebene. Wenn Ihr Anbieter eine einzige aggregierte Fairness-Kennzahl meldet, wissen Sie noch nicht, ob Sie die Vorschriften einhalten. Sie wissen nur, dass jemand einen Durchschnitt gebildet hat.
- 02Akzeptieren Sie die Selbsteinschätzung eines Anbieters nicht als Ihre Absicherung. Der Anbieter in dieser Studie handelte nicht in böser Absicht; er beantwortete mit seinen eigenen Werkzeugen die falsche Frage. Unabhängigkeit ist der einzige Grund, warum diese Disparitäten überhaupt ans Licht kamen.
- 03Berücksichtigen Sie die Konzentration. Wenn Sie und Ihre Wettbewerber alle mit demselben Modell prüfen, diversifizieren Sie Ihr Urteil nicht, Sie syndizieren es. Fragen Sie sich, was das für die Kandidaten bedeutet, die Sie nie zu Gesicht bekommen, und für das systemische Risiko, das Sie sich stillschweigend ins Haus holen.
- 04Behandeln Sie die Frist im August 2026 als Planungsdatum, nicht als Einreichungsdatum. Die Arbeit, Fairness nachzuweisen, Kompromisse zu dokumentieren und diese vor einem Prüfer oder Vorstand zu vertreten, dauert länger, als der Papierkram vermuten lässt.
Die fehlende Ebene: unabhängige Bewertung
Die vielleicht verheerendste Zeile in der Studie ist die, die erklärt, warum die Untersuchung überhaupt möglich war. Sie war möglich, weil der Anbieter seine Daten freiwillig im Rahmen einer Vereinbarung weitergab, die die Unabhängigkeit der Forschenden schützte. Die Autoren machen deutlich, dass unabhängige Forschung die sonst undurchsichtigen Einstellungsalgorithmen beleuchtet, und ebenso deutlich, dass Ergebnisse wie diese den nächsten Anbieter davon abhalten könnten, jemals die Tür zu öffnen.
Das ist die strukturelle Lücke, die diese Studie aufdeckt, und es ist die, die validant.ai schließen will. Die Lektion hier ist nicht, dass KI-gestützte Personalbeschaffung einzigartig böse ist. Sondern, dass Fairness nicht von derselben Partei zertifiziert werden kann, die das System baut und verkauft, gemessen mit der Metrik, die ihm am ehesten schmeichelt, auf der Aggregationsebene, die am wenigsten wahrscheinlich ein Problem aufdeckt. Fairness braucht eine unabhängige Prüfung: auf Positionsebene, evidenzbasiert, transparent darüber, wen das System begünstigt und wen es bereit ist, verlieren zu lassen, und rechenschaftspflichtig gegenüber den Personen, die das rechtliche und rufschädigende Risiko tragen.
Genau dafür haben wir validant.ai entwickelt. Wir führen Fairness-Bewertungen auf Positionsebene anhand der Vier-Fünftel-Regel und anderer branchenspezifischer Kriterien durch, wir halten die Voreingenommenheitsdiagnose und die Beweise von jeglichem Anspruch auf ein sauberes Ergebnis getrennt und wir erstellen einen Bericht, den ein Prüfer, ein Journalist oder eine Regulierungsbehörde tatsächlich hinterfragen kann. Kein Urteil, das die Konversation beendet. Sondern eine Evidenzbasis, die die Konversation rechenschaftspflichtig macht.
“Kein System war jemals fair, und eine einzelne Zahl wird es auch nie fair machen. Was wir tun können, ist, die richtige Frage auf der richtigen Ebene zu stellen und unsere Antwort dann jemandem zu beweisen, der keinen Anreiz hat, sie zu mögen.”
Die falsche Frage, im großen Stil gestellt
Lesen Sie die Studie und sehen Sie sich dann Ihren eigenen Tech-Stack an
Lesen Sie die vollständige Studie „Algorithmic Monocultures in Hiring“ unter algorithmichiring.github.io/paper.pdf und die Berichterstattung von Fortune von Nick Lichtenberg unter fortune.com.
Stellen Sie sich dann die Frage, die die Studie aufwirft: Wenn jemand Ihre Einstellungstools Position für Position anhand der Vier-Fünftel-Regel analysieren würde, was würde er finden? Wenn Sie sich der Antwort nicht sicher sind, ist diese Unsicherheit das Ergebnis.
Bei validant.ai entwickeln wir unabhängige Fairness-Bewertungen für KI-Systeme auf Positionsebene, die für den Nachweisstandard konzipiert sind, den der EU AI Act ab dem 2. August 2026 vorschreiben wird. Wenn Sie wissen möchten, was Ihr Hiring-Stack tatsächlich tut, bevor es Ihnen eine Regulierungsbehörde, ein Journalist oder ein Forscher sagt, kontaktieren Sie uns.
Finden Sie heraus, was Ihr Hiring-Stack tatsächlich tut, Position für Position, bevor es jemand anderes tut. Buchen Sie eine Demo und sehen Sie eine unabhängige, evidenzbasierte Fairness-Analyse.
Daniel Glinz arbeitet an den Themen KI-Fairness, digitales Vertrauen und regulatorische Bereitschaft und ist der Gründer von validant.ai.
VeranstaltungenZum Lesen öffnenKein System war jemals fair
Was wir aus vier Breakout-Sessions, einer Demo eines Fairness-Tools und über 50 Jahren gemeinsamer Erfahrung beim Trustworthy AI Circle über Fairness in der KI gelernt haben.
Lesen

