Études

La mauvaise question, posée à grande échelle

Dessin technique au trait de style Blanco représentant une seule loupe au centre, de laquelle partent en éventail des lignes identiques vers une rangée de petits immeubles de bureaux et une foule de silhouettes uniformes, avec une seule silhouette isolée, légèrement teintée de corail et mise à l'écart, le tout en fins traits noirs sur fond blanc.

Traduit de l'anglais par une IA. La version anglaise fait foi.Lire l'original en anglais

Une étude de référence portant sur plus de quatre millions de candidatures montre comment les outils de recrutement par IA dissimulent leurs biais, pourquoi un seul refus peut se transformer en un refus systématique, et pourquoi une évaluation indépendante au niveau du poste n'est plus une option.

Une nouvelle étude vient de faire quelque chose que le secteur du recrutement par IA a passé des années à juger inutile. Elle a regardé.

Des chercheurs de Stanford, Chapman et Northeastern ont analysé plus de 4 millions de candidatures provenant d'environ 3 millions de candidats auprès de 156 employeurs, dont la plupart sont des entreprises réalisant un chiffre d'affaires annuel de cinq milliards de dollars ou plus, toutes examinées par un seul et même fournisseur. L'article, intitulé « Algorithmic Monocultures in Hiring », sera présenté le mois prochain à la conférence ACM sur l'équité, la responsabilité et la transparence (Fairness, Accountability, and Transparency) à Montréal. La première phrase de ses conclusions est sans détour : les auteurs font état de « disparités raciales manifestes » dans les recommandations de l'algorithme.

Le chiffre qui fait les gros titres est celui qui circule : plus de 25 % de toutes les candidatures soumises par des candidats noirs, soit près de 40 000 dossiers, concernaient des postes pour lesquels l'outil a produit des résultats que les directives fédérales qualifient de discriminatoires. Les candidats asiatiques ont été touchés dans une mesure comparable, avec près de 15 % de leurs candidatures tombant dans la même catégorie. C'est l'information que tout le monde partagera. Ce qui importe davantage pour quiconque utilise ou achète ces systèmes, c'est la manière dont cette disparité est restée si longtemps dissimulée.

Ils n'ont pas invalidé les calculs. Ils ont changé la question.

Le fournisseur étudié, la plateforme d'évaluation par le jeu Pymetrics, avait mené sa propre analyse de Fairness et n'avait rien trouvé qui atteigne le seuil de préoccupation juridique. Les chercheurs n'ont pas contesté ces calculs. Ils ont contesté la question à laquelle ces calculs répondaient.

Pymetrics a regroupé tous les candidats et tous les résultats, pour l'ensemble des employeurs et des postes, puis a vérifié l'existence de disparités dans cet agrégat. L'équipe dirigée par Stanford a plutôt fait ce que la loi américaine sur la discrimination exige en réalité : elle a testé chacun des 1 746 postes individuellement, en s'appuyant sur la règle des quatre cinquièmes de l'Equal Employment Opportunity Commission. Mesurés de cette manière, 10,62 % des postes présentaient un impact négatif sur les candidats noirs, et 30 % des candidats noirs avaient postulé à au moins l'un d'entre eux.

“Le simple fait d'agréger les postes individuels en groupes professionnels suffit à faire disparaître du rapport la discrimination au niveau du poste. Le biais n'a jamais été absent. Il a été effacé par la moyenne.”

Dessin au trait d'une rangée de barres verticales courtes et régulières, avec une barre cachée qui s'élève bien au-dessus d'une ligne de moyenne plate, la grande barre étant légèrement teintée de corail, avec une ligne de seuil en pointillés en dessous. — Un système peut être validé au niveau du portefeuille et échouer, de manière répétée, au niveau où une personne réelle est effectivement rejetée. La seule barre élevée représente le poste où le préjudice se produit ; la moyenne le dissimule.

C'est le point le plus important de toute l'étude, et il n'a rien à voir avec un fournisseur en particulier. Un système peut être validé au niveau du portefeuille et échouer, de manière répétée, au niveau où une personne réelle est effectivement rejetée.

J'ai présenté ce même argument dans chaque session sur la Fairness que j'anime, généralement face à un public qui préférerait une réponse confortable. Un score de Fairness agrégé unique n'est pas une preuve d'équité. C'est souvent le contraire : un chiffre conçu, parfois involontairement, pour être rassurant. C'est le contexte qui transforme une métrique de « simple indicateur » en fondement pour une décision, et l'unité de contexte ici est le poste, pas la plateforme.

La mise à l'index algorithmique

La deuxième conclusion est celle qui devrait inquiéter les chercheurs d'emploi, et elle est véritablement nouvelle. Parce que le même fournisseur évalue les candidats pour de nombreux employeurs différents, et parce qu'un algorithme donne le même résultat pour la même entrée à chaque fois, un refus d'une entreprise prédit un refus de la suivante bien mieux que ne le permettrait le hasard. Les chercheurs appellent cela le rejet systémique. Parmi les candidats ayant postulé à dix postes examinés par le même fournisseur, 4 % ont été rejetés pour les dix, un taux trop élevé pour être une coïncidence si chaque employeur décidait indépendamment.

Le mécanisme est banal, et c'est ce qui le rend grave. Lorsqu'un candidat participe aux jeux d'évaluation, ses scores sont stockés et réutilisés pendant une période pouvant aller jusqu'à 330 jours. Deux employeurs utilisant le même fournisseur ne soumettent pas un candidat à deux évaluations. Ils lui font passer deux fois la même évaluation. L'équipe qualifie ce résultat de mise à l'index algorithmique, un concept qui avait été théorisé dans la littérature mais jamais observé à cette échelle dans des données réelles et déployées. Leur simulation a chiffré le coût pour les candidats : pour ramener la probabilité d'être exclu partout en dessous de 0,1 %, un candidat devrait postuler à au moins 25 postes, soit plus du double des dix qui suffiraient si chaque décision était véritablement indépendante.

“Un recruteur humain peut passer une mauvaise journée, avoir un angle mort, être d'une humeur différente le mardi. Ce bruit est, paradoxalement, une forme de protection. Une monoculture le supprime. Un seul modèle, un seul verdict, répété sur l'ensemble du marché du travail.”

Un seul fournisseur, de nombreux employeurs : le problème de la monoculture

C'est pourquoi le titre de l'article parle de monoculture plutôt que de biais. Le risque plus profond est la concentration. Les auteurs notent qu'en mai 2023, plus de 60 % des entreprises du Fortune 100 et huit des dix plus grandes agences fédérales américaines s'appuyaient sur les algorithmes d'un seul fournisseur dominant pour le recrutement. Lorsqu'un seul modèle est au cœur d'un si grand nombre de décisions, ses particularités cessent d'être un défaut de produit pour devenir une infrastructure de marché. Une défaillance à un endroit devient une défaillance partout, simultanément, et un point de défaillance unique peut perturber le recrutement de milliers d'employeurs à la fois.

Dans une monoculture, le biais n'affecte pas seulement plus de personnes. Il les affecte de manière corrélée, ce qui constitue un problème différent et plus complexe que le même nombre d'erreurs indépendantes.

L'étau réglementaire se resserre

Cette étude n'arrive pas dans le vide. Elle est publiée quelques semaines avant que les règles ne changent.

Aux États-Unis, la loi locale 144 de la ville de New York a été la première réglementation visant directement les outils de recrutement automatisés. Les chercheurs ont constaté que les directives qui l'accompagnent semblent demander aux auditeurs de regrouper les données de tous les postes et employeurs, ce qui correspond précisément à la méthode d'agrégation dont ils démontrent qu'elle peut masquer les disparités. Un régime de conformité peut être respecté alors que le préjudice sous-jacent reste entièrement intact. Cet écart devrait inquiéter quiconque considère une case cochée lors d'un audit comme une preuve de Fairness.

En Europe, la position est plus tranchée. L'EU AI Act classe par défaut comme à haut risque l'IA utilisée dans le recrutement et l'embauche, et les obligations pour les systèmes à haut risque entreront en vigueur le 2 août 2026. Ce n'est pas un horizon lointain. Pour toute organisation opérant ou recrutant dans l'UE, les exigences en matière de gestion des risques, de gouvernance des données, de transparence, de surveillance humaine et de suivi post-commercialisation sont sur le point de devenir des obligations légales plutôt que de bonnes intentions. Une étude révélant une discrimination au niveau des postes, mise en évidence par des chercheurs indépendants, est un avant-goût exact des preuves que les régulateurs et les plaignants rechercheront.

Ce que cela signifie si vous utilisez l'IA dans le recrutement

Quatre conclusions pratiques découlent directement de cette recherche.

01Mesurez l'impact négatif au niveau du poste, et non au niveau du portefeuille. Si votre fournisseur vous communique un chiffre de Fairness agrégé unique, vous ne savez pas encore si vous êtes en conformité. Vous savez simplement que quelqu'un a fait une moyenne.
02N'acceptez pas l'auto-évaluation d'un fournisseur comme votre garantie. Le fournisseur de cette étude n'agissait pas de mauvaise foi ; il répondait à la mauvaise question avec ses propres outils. C'est uniquement l'indépendance qui a permis de mettre ces disparités en lumière.
03Tenez compte de la concentration. Si vous et vos concurrents utilisez tous le même modèle pour la sélection, vous ne diversifiez pas votre jugement, vous en syndiquez un seul. Demandez-vous ce que cela signifie pour les candidats que vous ne voyez jamais et pour le risque systémique que vous importez discrètement.
04Considérez l'échéance d'août 2026 comme une date de planification, et non comme une date de dépôt. Le travail consistant à prouver l'équité, à documenter les compromis et à les présenter à un auditeur ou à un conseil d'administration prend plus de temps que ne le laisse supposer la paperasserie.

Le maillon manquant : l'évaluation indépendante

La phrase la plus discrètement dévastatrice de l'article est celle qui explique pourquoi l'étude a même été possible. Elle a eu lieu parce que le fournisseur a volontairement partagé ses données dans le cadre d'un accord qui protégeait l'indépendance des chercheurs. Les auteurs sont clairs sur le fait que la recherche indépendante est ce qui éclaire des algorithmes de recrutement autrement opaques, et tout aussi clairs sur le fait que des conclusions comme celles-ci pourraient décourager le prochain fournisseur d'ouvrir la porte.

C'est la faille structurelle que cette étude expose, et c'est celle que validant.ai a pour mission de combler. La leçon à en tirer n'est pas que le recrutement par IA est intrinsèquement mauvais. C'est que la Fairness ne peut être certifiée par la même partie qui conçoit et vend le système, mesurée avec la métrique la plus susceptible de le flatter, au niveau d'agrégation le moins susceptible de révéler un problème. La Fairness nécessite une lecture indépendante : au niveau du poste, fondée sur des preuves, transparente sur les personnes que le système avantage et celles qu'il est prêt à laisser perdre, et responsable devant les personnes qui portent le risque juridique et de réputation.

C'est exactement ce pour quoi nous avons conçu validant.ai. Nous effectuons une évaluation de la Fairness au niveau du poste en nous basant sur la règle des quatre cinquièmes et les autres prismes exigés par chaque domaine, nous maintenons le diagnostic des biais et les preuves séparés de toute affirmation de résultat irréprochable, et nous produisons une analyse qu'un auditeur, un journaliste ou un régulateur peut réellement interroger. Pas un verdict qui met fin à la conversation. Une base de preuves qui rend la conversation responsable.

“Aucun système n'a jamais été juste, et un simple chiffre ne le rendra jamais tel. Ce que nous pouvons faire, c'est poser la bonne question, au bon niveau, puis prouver notre réponse à quelqu'un qui n'a aucune raison de l'apprécier.”
La mauvaise question, posée à grande échelle

Lisez l'étude, puis examinez votre propre stack

Lisez l'article complet, « Algorithmic Monocultures in Hiring », sur algorithmichiring.github.io/paper.pdf, et la couverture de Fortune par Nick Lichtenberg sur fortune.com.

Posez-vous ensuite la question que l'étude impose : si quelqu'un analysait vos outils de recrutement poste par poste, en s'appuyant sur la règle des quatre cinquièmes, que trouverait-il ? Si vous n'êtes pas certain de la réponse, cette incertitude est la conclusion.

Chez validant.ai, nous développons une évaluation indépendante de la Fairness des systèmes d'IA au niveau des postes, conçue pour le niveau de preuve que l'EU AI Act exigera à partir du 2 août 2026. Si vous souhaitez savoir ce que votre stack de recrutement fait réellement avant qu'un régulateur, un journaliste ou un chercheur ne vous le dise, contactez-nous.

Découvrez ce que votre stack de recrutement fait réellement, poste par poste, avant que quelqu'un d'autre ne le fasse. Réservez une démo et consultez une analyse de Fairness indépendante et factuelle.

Daniel Glinz travaille sur la Fairness de l'IA, la confiance numérique et la préparation réglementaire, et est le créateur de validant.ai.

Partager cet article

À lire ensuite

Dessin au trait technique de style Blanco représentant cinq participants au Trustworthy AI Circle souriant et faisant le signe de la paix, réalisé en fines lignes noires sur fond blanc avec des touches de corail doux.

ÉvénementsOuvrir pour lire

26 mai 2026

Aucun système n'a jamais été équitable

Ce que quatre ateliers, une démonstration d'outil de Fairness et plus de 50 ans d'expérience collective nous ont appris sur la Fairness en IA, lors du Trustworthy AI Circle.

Lire

Deux éponges de nettoyage quasi identiques sur une étagère de magasin : le « Scrub Daddy » à connotation masculine est plus cher que le « Scrub Mommy » à connotation féminine, vendu comme une variante moins chère de la même marque, avec pour légende : « La confiance dans un système d'IA commence au moment où ses biais cessent de se cacher. »

RechercheOuvrir pour lire

21 mai 2026

Le biais est le fondement

Pourquoi toute déclaration d'équité commence par un diagnostic des biais, et pourquoi ignorer cette étape compromet l'ensemble du processus en aval.

Lire

Dessin au trait technique de style Blanco du pont de la Chapelle, pont en bois couvert de Lucerne, et de son château d'eau octogonal sur la Reuss, avec le mont Pilate en arrière-plan et un ciel aux teintes corail douces.

ÉvénementsOuvrir pour lire

30 mai 2026

Deux visions d'une même décision : l'IA digne de confiance et explicable en pratique à la HSLU

Notes d'un cours spécialisé à Lucerne sur l'IA digne de confiance et explicable, et ce qu'il confirme sur l'approche de Validant.ai.

Lire

Retour à toutes les actualités