Un estudio de referencia sobre más de cuatro millones de solicitudes de empleo muestra cómo las herramientas de contratación con IA ocultan sus sesgos, por qué un rechazo puede convertirse en un rechazo en todas partes y por qué la evaluación independiente a nivel de puesto ya no es opcional.
Un nuevo estudio acaba de hacer algo que el sector de la contratación con IA llevaba años insistiendo que era innecesario. Analizó.
Investigadores de Stanford, Chapman y Northeastern analizaron más de 4 millones de solicitudes de empleo de aproximadamente 3 millones de solicitantes en 156 empresas, la mayoría de ellas con cinco mil millones de dólares o más de ingresos anuales, todas ellas evaluadas por un único proveedor. El artículo, “Algorithmic Monocultures in Hiring”, se presentará el mes que viene en la Conferencia de la ACM sobre Fairness, Responsabilidad y Transparencia en Montreal. La primera frase de sus conclusiones es contundente: los autores informan de “claras disparidades raciales” en las recomendaciones del algoritmo.
La cifra principal es la que se difunde: más del 25 % de todas las solicitudes presentadas por candidatos negros, cerca de 40 000, se destinaron a puestos en los que la herramienta produjo resultados que las directrices federales definen como discriminatorios. Los solicitantes asiáticos se vieron afectados a una escala comparable, con casi el 15 % de sus solicitudes en la misma categoría. Esa es la parte que todo el mundo compartirá. La parte que más importa a cualquiera que utilice o compre estos sistemas es cómo la disparidad permaneció oculta durante tanto tiempo.
No se equivocaron en los cálculos. Cambiaron la pregunta.
El proveedor de este estudio, la plataforma de evaluación basada en juegos Pymetrics, había realizado su propio análisis de Fairness y no encontró nada que alcanzara el umbral de preocupación legal. Los investigadores no cuestionaron esos cálculos. Cuestionaron la pregunta a la que respondían.
Pymetrics agrupó a todos los solicitantes y todos los resultados, de todas las empresas y todos los puestos, y luego comprobó la disparidad en el conjunto. En cambio, el equipo dirigido por Stanford hizo lo que realmente exige la legislación estadounidense contra la discriminación: analizaron cada uno de los 1746 puestos de forma individual, según la regla de los cuatro quintos de la Comisión para la Igualdad de Oportunidades en el Empleo. Medido de esa manera, el 10,62 % de los puestos mostraron un impacto adverso contra los solicitantes negros, y el 30 % de los solicitantes negros se habían presentado al menos a uno de ellos.
“Agregar los puestos individuales en grupos ocupacionales es suficiente, por sí solo, para hacer desaparecer del informe la discriminación por puesto. El sesgo nunca estuvo ausente. Se eliminó al promediar.”
Este es el punto más importante de todo el estudio, y no tiene nada que ver con un único proveedor. Un sistema puede ser aprobado a nivel de cartera y fallar, repetidamente, a nivel del puesto en el que una persona real es rechazada.
He expuesto este mismo argumento en cada sesión de Fairness que dirijo, normalmente ante un público que quiere la respuesta cómoda. Una única puntuación de Fairness agregada no es prueba de equidad. A menudo es lo contrario: una cifra diseñada, a veces sin querer, para ser tranquilizadora. El contexto es lo que convierte una métrica de “algo que mirar” en una base para una decisión, y la unidad de contexto aquí es el puesto, no la plataforma.
La lista negra algorítmica
El segundo hallazgo es el que debería preocupar a los solicitantes de empleo, y es genuinamente nuevo. Como el mismo proveedor puntúa a los candidatos para muchas empresas diferentes, y como un algoritmo da el mismo resultado para la misma entrada cada vez, un rechazo de una empresa predice el rechazo de la siguiente mucho mejor de lo que permitiría el azar. Los investigadores lo llaman rechazo sistémico. Entre los solicitantes que se presentaron a diez puestos evaluados por el mismo proveedor, el 4 % fueron rechazados en los diez, una tasa demasiado alta para ser una coincidencia si cada empresa decidiera de forma independiente.
El mecanismo es trivial, y eso es lo que lo hace grave. Cuando un candidato participa en los juegos de evaluación, sus puntuaciones se almacenan y reutilizan hasta 330 días. Dos empresas que utilizan el mismo proveedor no están haciendo dos evaluaciones de un solicitante. Están haciendo la misma evaluación dos veces. El equipo llama al resultado una lista negra algorítmica, un concepto que se había teorizado en la bibliografía pero que nunca antes se había observado a esta escala en datos reales y desplegados. Su simulación cuantificó el coste para los solicitantes: para reducir la probabilidad de ser excluido en todas partes por debajo del 0,1 %, un candidato necesitaría presentarse al menos a 25 puestos, más del doble de los diez que bastarían si cada decisión fuera realmente independiente.
“Un reclutador humano tiene un mal día, un punto ciego, un humor diferente el martes. Ese ruido es, perversamente, una especie de protección. Un monocultivo lo elimina. Un modelo, un veredicto, repetido en todo un mercado laboral.”
Un proveedor, muchas empresas: el problema del monocultivo
Por eso el título del artículo habla de monocultivo en lugar de sesgo. El riesgo más profundo es la concentración. Los autores señalan que, a fecha de mayo de 2023, más del 60 % de las empresas de la lista Fortune 100 y ocho de las diez mayores agencias federales de EE. UU. dependían de los algoritmos de un único proveedor dominante para la contratación. Cuando un modelo está detrás de tantas decisiones, sus peculiaridades dejan de ser un defecto del producto y se convierten en infraestructura de mercado. Una deficiencia en un lugar es ahora una deficiencia en todas partes, simultáneamente, y un único punto de fallo puede perturbar la contratación en miles de empresas a la vez.
El sesgo en un monocultivo no solo afecta a más personas. Las afecta de forma correlacionada, lo que supone un problema diferente y más difícil que el mismo número de errores independientes.
El cerco regulatorio se cierra
Este estudio no ha surgido de la nada. Ha llegado semanas antes de que cambien las normas.
En Estados Unidos, la Ley Local 144 de la ciudad de Nueva York fue la primera normativa dirigida directamente a las herramientas de contratación automatizadas. Los investigadores descubrieron que las directrices que la acompañan parecen instruir a los auditores para que agrupen los datos de todos los puestos y empresas, que es precisamente el método de agregación que, según demuestran, puede enmascarar la disparidad. Se puede satisfacer un régimen de cumplimiento y el daño subyacente puede permanecer totalmente intacto. Esa brecha debería inquietar a cualquiera que considere una marca de verificación de auditoría como prueba de equidad.
En Europa, la postura es más contundente. La EU AI Act clasifica la IA utilizada en el reclutamiento y la contratación como de alto riesgo por defecto, y las obligaciones para los sistemas de alto riesgo entrarán en vigor el 2 de agosto de 2026. No es un horizonte lejano. Para cualquier organización que opere o contrate en la UE, los requisitos de gestión de riesgos, gobernanza de datos, transparencia, supervisión humana y seguimiento poscomercialización están a punto de convertirse en deberes legales en lugar de buenas intenciones. Un estudio que muestra discriminación a nivel de puesto, sacado a la luz por investigadores independientes, es un anticipo exacto de las pruebas que buscarán los reguladores y los demandantes.
Qué significa esto si utiliza IA en la contratación
De la investigación se desprenden cuatro conclusiones prácticas.
- 01Mida el impacto adverso a nivel de puesto, no a nivel de cartera. Si su proveedor informa de una única cifra de Fairness agregada, usted todavía no sabe si cumple la normativa. Sabe que alguien ha promediado.
- 02No acepte la autoevaluación de un proveedor como su garantía. El proveedor de este estudio no actuaba de mala fe; estaba respondiendo a la pregunta equivocada con sus propias herramientas. La independencia es la única razón por la que estas disparidades salieron a la luz.
- 03Tenga en cuenta la concentración. Si usted y sus competidores evalúan a través del mismo modelo, no están diversificando su juicio, están sindicando uno solo. Pregúntese qué significa eso para los candidatos que nunca ve y para el riesgo sistémico que está importando silenciosamente.
- 04Considere la fecha límite de agosto de 2026 como una fecha de planificación, no de presentación. El trabajo de evidenciar la equidad, documentar las concesiones y defenderlas ante un auditor o un Consejo de Administración lleva más tiempo de lo que sugiere el papeleo.
La capa que falta: la evaluación independiente
La frase más silenciosamente devastadora del artículo es la que explica por qué el estudio fue posible. Sucedió porque el proveedor compartió voluntariamente sus datos bajo un acuerdo que protegía la independencia de los investigadores. Los autores dejan claro que la investigación independiente es lo que ilumina los algoritmos de contratación, que de otro modo serían opacos, y tienen igualmente claro que hallazgos como estos podrían disuadir al próximo proveedor de abrir la puerta.
Ese es el vacío estructural que este estudio expone, y es el que validant.ai existe para llenar. La lección aquí no es que la contratación con IA sea excepcionalmente malvada. Es que la equidad no puede ser certificada por la misma parte que construye y vende el sistema, medida con la métrica que más probablemente la favorezca, al nivel de agregación con menos probabilidades de revelar un problema. La equidad necesita una lectura independiente: a nivel de puesto, con pruebas, transparente sobre a quién beneficia el sistema y a quién está dispuesto a dejar perder, y responsable ante las personas que asumen el riesgo legal y de reputación.
Esto es exactamente para lo que creamos validant.ai. Realizamos evaluaciones de Fairness a nivel de puesto según la regla de los cuatro quintos y las otras perspectivas que cada dominio exige, mantenemos el diagnóstico de sesgos y las pruebas separables de cualquier afirmación de un resultado limpio, y producimos una lectura que un auditor, un periodista o un regulador pueden realmente interrogar. No un veredicto que ponga fin a la conversación. Una base de pruebas que hace que la conversación sea responsable.
“Ningún sistema ha sido nunca justo, y una sola cifra nunca lo hará. Lo que podemos hacer es plantear la pregunta correcta, al nivel correcto, y luego demostrar nuestra respuesta a alguien que no tiene ningún incentivo para que le guste.”
La pregunta equivocada, planteada a gran escala
Lea el estudio, luego examine su propio stack tecnológico
Lea el artículo completo, “Algorithmic Monocultures in Hiring”, en algorithmichiring.github.io/paper.pdf, y la cobertura de Fortune por Nick Lichtenberg en fortune.com.
Luego hágase la pregunta que el estudio obliga a plantear: si alguien analizara sus herramientas de contratación puesto por puesto, según la regla de los cuatro quintos, ¿qué encontraría? Si no está seguro de la respuesta, esa incertidumbre es el hallazgo.
En validant.ai desarrollamos evaluaciones de Fairness independientes a nivel de puesto para sistemas de IA, diseñadas para el estándar de evidencia que exigirá la EU AI Act a partir del 2 de agosto de 2026. Si desea saber lo que realmente hace su stack de contratación antes de que se lo diga un regulador, un periodista o un investigador, póngase en contacto con nosotros.
Descubra lo que realmente hace su stack de contratación, puesto por puesto, antes de que alguien más lo haga. Reserve una demo y vea una lectura de Fairness independiente y basada en evidencias.
Daniel Glinz trabaja en Fairness en IA, confianza digital y preparación regulatoria, y es el creador de validant.ai.
EventosAbrir para leerNingún sistema ha sido nunca justo
Lo que aprendimos sobre la Fairness en la IA en el Trustworthy AI Circle, a partir de cuatro sesiones de grupo, la demostración de una herramienta de Fairness y más de 50 años de experiencia colectiva.
Leer

