Por qué toda afirmación de Fairness comienza con un diagnóstico de sesgos y por qué omitirlo invalida todo el proceso posterior.
Resumen ejecutivo
La Fairness en la IA no es una característica que se añade al final. Es una propiedad que surge cuando el sesgo se diagnostica, se mide y se aborda en cada capa del proceso. Este informe establece cinco principios fundamentales: el sesgo es el origen de todo resultado injusto; la Fairness en sí misma es abstracta, mientras que el sesgo es medible; el diagnóstico debe preceder al tratamiento; el orden de intervención es fijo (sesgo, luego métrica, luego intervención); y el sesgo es la capa de soporte sobre la que descansan en última instancia toda la confianza, la gobernanza y el cumplimiento normativo.
A continuación, describe cómo el sesgo se introduce en cada etapa del ciclo de vida de la IA (recopilación de datos, modelado y revisión humana) antes de explicar por qué la elección de un objetivo de Fairness es una decisión normativa, no una decisión basada en los datos. El informe concluye con la idea de que no existe una lente de Fairness universal: lo que se considera justo viene determinado por el daño en juego, no por las matemáticas, y los sistemas de IA intersectoriales heredan obligaciones intersectoriales.
Un sesgo visible en el estante
Antes de que el sesgo sea una estadística en un conjunto de datos, es un hecho del mundo real. Tomemos como ejemplo las dos esponjas de limpieza casi idénticas que se muestran aquí. La original se vende como “Scrub Daddy”; a su lado se encuentra la “Scrub Mommy”, una variante de la misma línea de productos. Hacen el mismo trabajo, pero la original con código masculino tiene un precio más alto que la versión con código femenino.
Aquí se integran dos señales a la vez. El producto “Mommy” se posiciona como un derivado de la marca “Daddy”, presentado como la versión secundaria en lugar de como un igual, y tiene un precio más bajo por hacer un trabajo idéntico. Una diferencia en la etiqueta, no en la función, se convierte en una diferencia de estatus y de precio. Es la forma de la brecha salarial de género, plasmada en el embalaje de un producto.
Este es un ejemplo ilustrativo, no una afirmación sobre la intención de ninguna empresa. La cuestión es estructural: el sesgo no se origina en un modelo. Ya está presente en el mundo del que aprende el modelo, en los precios, en las etiquetas, en quién es tratado como la opción por defecto y quién como la variante. Un sistema de IA entrenado en un mundo así hereda sus suposiciones, a menos que alguien las diagnostique y corrija deliberadamente. Por eso el trabajo de Fairness no comienza con el modelo, sino con el sesgo que lo precede.
1. Los cinco axiomas del sesgo
Antes de elegir cualquier métrica, entrenar cualquier modelo o aplicar cualquier mitigación, deben entenderse cinco verdades estructurales sobre el sesgo. No son recomendaciones. Son las premisas de soporte sobre las que descansa cada decisión de Fairness posterior. Infringir cualquiera de ellas no solo debilita una auditoría, sino que la invalida por completo.
- 01
El sesgo es el origen, no el síntoma
Todo resultado injusto tiene su origen en un sesgo previo en el proceso. La IA hereda la injusticia, no la inventa.
- 02
La Fairness es abstracta; el sesgo es medible
No se puede medir la Fairness directamente. Toda métrica de Fairness es, en el fondo, una medición de una brecha de sesgo.
- 03
El diagnóstico precede al tratamiento
No se puede mitigar lo que no se ha localizado. Nombrar el sesgo es el primer acto técnico de la Fairness.
- 04
El orden es fijo
Sesgo → métrica → intervención. Si se altera este orden, se optimiza el objetivo equivocado.
- 05
El sesgo es la capa de soporte de la confianza
La gobernanza, el cumplimiento normativo y la garantía de calidad descansan sobre el diagnóstico de sesgos que los sustenta.
1.1 El sesgo es el origen, no el síntoma
Todo resultado injusto de la IA tiene su origen en un sesgo previo en el proceso. La IA no inventa la injusticia, la hereda. El modelo es un espejo: refleja las distribuciones, las omisiones y las elecciones de medición que ya estaban presentes en los datos y en las decisiones de diseño que le dieron forma. Tratar un resultado injusto sin rastrearlo hasta su fuente de sesgo es como tratar una fiebre sin preguntar qué causó la infección.
1.2 La Fairness es abstracta; el sesgo es medible
No se puede medir la Fairness directamente. Toda métrica de Fairness (paridad demográfica, igualdad de oportunidades, calibración, paridad predictiva) es, en el fondo, una medición del sesgo. La métrica cuantifica la brecha; la brecha es el sesgo. Fairness es el nombre que le damos al estado en el que la brecha es aceptable. Esta distinción es importante desde el punto de vista operativo: no se optimiza para la Fairness, sino que se reduce el sesgo hasta que la brecha restante se encuentre dentro de un umbral defendible.
1.3 El diagnóstico precede al tratamiento
No se puede mitigar lo que no se ha localizado. Nombrar el sesgo (su tipo, su origen, la etapa en la que se introduce, los grupos a los que afecta) es el primer acto técnico del trabajo de Fairness. Sin un diagnóstico, las intervenciones son conjeturas aplicadas a los síntomas. Con un diagnóstico, las intervenciones se vuelven específicas, auditables y reversibles.
1.4 El orden es fijo: sesgo, métrica, intervención
Omitir el paso del sesgo convierte las intervenciones en conjeturas, y las conjeturas no se pueden generalizar. La secuencia correcta es invariable:
- 01Identificar el sesgo (tipo, origen, grupo afectado).
- 02Seleccionar una métrica que operativice el objetivo de Fairness relevante para ese sesgo.
- 03Aplicar la intervención que aborde el sesgo diagnosticado y, a continuación, volver a medir.
Invertir los pasos 1 y 2 (elegir una métrica antes de comprender el sesgo) conduce al modo de fallo más común en la Fairness aplicada: optimizar el objetivo equivocado porque resultaba ser computable.
1.5 El sesgo es la capa de soporte de la confianza
La confianza en un sistema de IA comienza en el momento en que sus sesgos dejan de ocultarse. Todo lo que se encuentra en la arquitectura superior (marcos de gobernanza, certificaciones de cumplimiento, auditorías de garantía de calidad) descansa sobre esta base. Un marco de gobernanza que no sabe dónde reside el sesgo está construido sobre arena. Un certificado de cumplimiento emitido sin un diagnóstico de sesgos es un documento, no una prueba.
2. Dónde entra el sesgo en el proceso
El sesgo afecta a todo el proceso, no a un solo punto. No hay un único paso que corregir para eliminar el sesgo. Entra en cada etapa del ciclo de vida de la IA: recopilación de datos, construcción del modelo y revisión humana. Cada etapa exige su propio diagnóstico y su propia intervención. Las correcciones en los datos no pueden reparar el sesgo del modelado. Las correcciones en el modelado no pueden reparar el sesgo del revisor. El trabajo de Fairness debe realizarse por capas, porque el sesgo también se presenta en capas.
2.1 Sesgo en los datos
El sesgo en los datos puede manifestarse de varias formas. Los tres tipos principales son el sesgo histórico, el sesgo de representación y el sesgo de medición.
El sesgo histórico es el sesgo ya existente en el mundo que se ha filtrado en nuestros datos. Puede ocurrir incluso con un muestreo y una selección de características perfectos, y tiende a aparecer en grupos que han sido históricamente desfavorecidos o excluidos. Quedó ilustrado en el artículo de 2016 “Man is to Computer Programmer as Woman is to Homemaker”, cuyos autores demostraron que los 'word embeddings' entrenados con artículos de Google News exhiben y perpetúan estereotipos de género presentes en la sociedad.
El sesgo de representación se produce por la forma en que definimos y muestreamos una población para crear un conjunto de datos. Por ejemplo, los datos utilizados para entrenar el sistema de reconocimiento facial de Amazon se basaban principalmente en rostros de personas blancas, lo que provocó importantes brechas de precisión al detectar rostros de piel más oscura. Los conjuntos de datos recopilados a través de aplicaciones para teléfonos inteligentes pueden, de forma similar, infrarrepresentar a los grupos demográficos de menores ingresos o de mayor edad.
El sesgo de medición se produce al elegir o recopilar las características o etiquetas utilizadas en los modelos predictivos. Los datos de fácil acceso suelen ser un 'proxy' con ruido para la característica o etiqueta de interés real, y los procesos de medición y la calidad de los datos suelen variar entre los distintos grupos. En un informe de 2016, ProPublica investigó la vigilancia policial predictiva y descubrió que el uso de mediciones 'proxy' para predecir la reincidencia puede llevar a que los acusados de raza negra reciban sentencias más duras que los acusados de raza blanca por el mismo delito.
| Tipo de sesgo | Mecanismo | Ejemplo canónico |
|---|---|---|
| Sesgo histórico | Inequidades existentes en el mundo absorbidas por los datos de entrenamiento | 'Word embeddings' que codifican estereotipos de género (Bolukbasi et al. 2016) |
| Sesgo de representación | El muestreo de la población no refleja la población de despliegue | Reconocimiento facial de Amazon entrenado predominantemente con rostros de personas blancas |
| Sesgo de medición | Las características o etiquetas 'proxy' difieren del constructo real entre los distintos grupos | Reincidencia de COMPAS: antecedentes de arresto como 'proxy' de la reincidencia (ProPublica 2016) |
2.2 Sesgo en el modelado
Incluso con datos perfectos, nuestros métodos de modelado pueden introducir sesgos. Dos vías comunes son el sesgo de evaluación y el sesgo de agregación.
El sesgo de evaluación se produce durante la iteración y evaluación del modelo. Un modelo se optimiza con datos de entrenamiento, pero su calidad se mide a menudo con respecto a 'benchmarks'. El sesgo surge cuando esos 'benchmarks' no representan a la población general o no son apropiados para la forma en que se utilizará el modelo.
El sesgo de agregación surge durante la construcción del modelo cuando se combinan de forma inadecuada poblaciones distintas. En muchas aplicaciones, la población de interés es heterogénea, y es poco probable que un único modelo se adapte a todos los grupos. En el sector sanitario, los modelos para diagnosticar y monitorizar la diabetes han utilizado históricamente los niveles de hemoglobina A1c (HbA1c); un artículo de 2019 demostró que esos niveles difieren de forma compleja entre etnias, por lo que un único modelo para todas las poblaciones está abocado a presentar sesgos.
| Tipo de sesgo | Mecanismo | Ejemplo canónico |
|---|---|---|
| Sesgo de evaluación | Los 'benchmarks' no representan la población de despliegue ni el caso de uso | 'Benchmarks' de ImageNet que sobrerrepresentan los contextos occidentales |
| Sesgo de agregación | Poblaciones heterogéneas forzadas a un único modelo | Modelos de diabetes basados en HbA1c que ignoran la variación ligada a la etnia (Vyas et al. 2019) |
2.3 Sesgo en la revisión humana
Incluso si el modelo hace predicciones correctas, un revisor humano puede introducir sus propios sesgos al decidir si acepta o descarta una predicción. El humano en el bucle ('human in the loop') es una fuente de sesgo, no un filtro de sesgo.
Un revisor podría anular una predicción correcta basándose en un sesgo sistémico, razonando algo como: “Conozco a ese grupo demográfico y nunca rinden bien”. Esto reintroduce la injusticia ('unfairness') después de que el modelo haya hecho su trabajo, convirtiendo la supervisión humana en el bucle en un amplificador potencial del mismo daño que estaba destinada a prevenir.
2.4 El bucle de retroalimentación
Las acciones tomadas por el sistema vuelven al mundo como nuevos datos de entrenamiento. El ciclo no se reinicia entre versiones, sino que se agrava. Una decisión sesgada hoy se convierte en una señal de entrenamiento sesgada mañana. Por eso la auditoría de sesgos no es un evento puntual, sino una obligación continua.
3. Elegir el objetivo de Fairness
Elegir el objetivo de Fairness es una decisión normativa, no una decisión basada en los datos. El objetivo se elige a partir de la estructura del daño, no de lo que el archivo permite calcular. Esta sección explica por qué y qué hacer cuando la métrica ideal no es medible.
3.1 El objetivo viene determinado por el daño, no por los datos
En la contratación, el error costoso y relevante para los derechos es el falso negativo: una persona cualificada que es descartada. El criterio que aborda exactamente eso es la igualdad de oportunidades (Equal Opportunity), es decir, una tasa de verdaderos positivos igual entre los grupos (Hardt et al. 2016): entre las personas que realmente están cualificadas, ¿se invita a todos los grupos en la misma proporción?
Esa elección es correcta por la naturaleza de la contratación, independientemente de si su conjunto de datos particular puede medirlo. Dejar que la mensurabilidad elija su ética es ir al revés: acabaría optimizando la paridad demográfica solo porque es computable, incluso cuando es el objetivo equivocado para el dominio. La regla es: mantener la igualdad de oportunidades como el objetivo declarado. La disponibilidad de los datos decide el estimador, no el objetivo.
3.2 Por qué sigue sin poder computarlo directamente, y por qué eso es realista
La igualdad de oportunidades necesita una etiqueta de «esta persona estaba realmente cualificada». Una auditoría real casi nunca la tiene, por una razón estructural llamada el problema de las etiquetas selectivas: solo se observan los resultados de las personas que el modelo ya ha admitido. No se puede ver cómo se habrían desempeñado los candidatos rechazados.
La postura honesta es que el objetivo correcto no se puede medir directamente con los datos de producción, por su naturaleza, no por un descuido. Esto no es un fallo de la auditoría; es la limitación que define el trabajo de Fairness aplicada.
3.3 El flujo de trabajo con proxies
No se abandona el objetivo; se estima con proxies progresivamente más débiles y se informa con honestidad:
- 01Paridad demográfica / regla de los cuatro quintos. Una gran brecha en la tasa de selección es un filtro de condición necesaria: si un grupo es invitado a una quinta parte de la tasa de otro, es casi seguro que se están perdiendo personas cualificadas de ese grupo. Superar esta prueba no garantiza la igualdad de oportunidades, pero no superarla es una fuerte evidencia de un problema.
- 02Paridad de selección condicional sobre observables legítimos. Entre candidatos emparejados por experiencia, habilidades y niveles de educación, ¿son iguales las tasas de invitación entre los grupos? Esto utiliza características de mérito observadas como sustituto de la etiqueta faltante de «verdaderamente cualificado», y es la mejor aproximación sin etiquetas a la igualdad de oportunidades.
- 03Proxies de resultados en despliegues reales. ¿Quién fue contratado y posteriormente retenido, tuvo un buen desempeño o fue ascendido? Sesgado y parcial (de nuevo, etiquetas selectivas), pero permite estimar realmente las brechas en la TPR con salvedades.
Esta es precisamente la razón por la que la demostración de Fairness de Validant incluye el conjunto de datos oráculo. El archivo completo de 43 columnas existe para demostrar que el proxy funciona. Se ejecutan los proxies sin etiquetas en el archivo de 41 columnas, luego se vuelve a unir el oráculo y se comprueba: ¿recuperó correctamente la paridad de selección condicional sobre observables la verdadera violación de la igualdad de oportunidades que revela la puntuación de cualificación? Si es así, se tiene evidencia de que el mismo proxy es fiable en auditorías reales donde no existe un oráculo. Esa es toda la carga pedagógica de tener dos archivos.
4. No existe una lente de Fairness universal
No existe una lente de Fairness universal. Lo que significa «equitativo» (fair) viene determinado por el daño en juego, no por las matemáticas. La lente dominante se deriva del daño dominante.
| Daño en el dominio | Lente de Fairness dominante | Contexto regulatorio | Métrica clave |
|---|---|---|---|
| Exclusión (contratación, préstamos, vivienda) | Equidad distributiva | EU AI Act, NYC LL 144, regla de los cuatro quintos de la EEOC | Paridad en la tasa de selección, igualdad de oportunidades |
| Libertad (justicia penal, sentencias) | Calibración | COMPAS litigation, ProPublica analysis | Calibración entre grupos, paridad predictiva |
| Expresión (moderación de contenidos) | Equidad procesal | DSA, marcos de gobernanza de plataformas | Igualdad en la tasa de apelación, exhaustividad de la notificación |
| Salud (apoyo a la decisión clínica) | Equidad consciente de la agregación | Directrices de la FDA, Obermeyer et al. 2019 | Precisión estratificada por subgrupos, umbrales ajustados por HbA1c |
| General (despliegue interdominio) | Mínimo procesal | EU AI Act Art. 13-14, NIST AI RMF | Notificación, explicabilidad, contestabilidad |
4.1 La misma métrica puede ser obligatoria en un dominio y carecer de sentido en otro
La paridad en la tasa de selección es ley en la contratación (la regla de los cuatro quintos de la EEOC) e irrelevante en sanidad. La calibración es esencial en la justicia penal y no viene al caso en la moderación de contenidos. No se trata de un tecnicismo; es la razón estructural por la que una única puntuación de Fairness es científicamente incoherente.
4.2 Los sistemas interdominio heredan obligaciones interdominio
Un modelo de propósito general desplegado en contratación, concesión de créditos y sanidad debe satisfacer tres regímenes de Fairness simultáneamente, no solo uno. Esta es la realidad regulatoria de los modelos fundacionales. La obligación del proveedor no es elegir una perspectiva y optimizarla, sino demostrar que se conocen todos los dominios en los que se despliega el modelo y proporcionar pruebas de evaluación específicas para cada dominio.
4.3 La Fairness procedimental es la base universal
Cuando las métricas sustantivas discrepan, todos los dominios convergen en el mismo mínimo: notificación, explicabilidad y contestabilidad. Cuando la Fairness de resultados falla, la Fairness procedimental es lo que queda. Un sistema que no puede explicar sus decisiones no ha superado la base procedimental, independientemente de su puntuación en cualquier métrica sustantiva.
“Una palabra. Cinco regímenes. Ninguna respuesta única. La única respuesta honesta es crear una evaluación de la Fairness que tenga en cuenta el dominio por diseño.”
El sesgo es la base
Fuentes y lecturas adicionales
- 01Hardt, M., Price, E. & Srebro, N. (2016). Equality of Opportunity in Supervised Learning. NeurIPS 2016.
- 02Bolukbasi, T. et al. (2016). Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. NeurIPS 2016.
- 03Angwin, J. et al. (2016). Machine Bias. ProPublica.
- 04Obermeyer, Z. et al. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science 366(6464).
- 05Vyas, D.A. et al. (2020). Hidden in Plain Sight: Reconsidering the Use of Race Correction in Clinical Algorithms. NEJM 383(9).
- 06Suresh, H. & Guttag, J. (2021). A Framework for Understanding Sources of Harm throughout the Machine Learning Life Cycle. EAAMO 2021.
- 07Buolamwini, J. & Gebru, T. (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. FAccT 2018.
EstudiosAbrir para leerLa pregunta equivocada, planteada a gran escala
Un estudio de referencia sobre 4 millones de solicitudes de empleo muestra cómo las herramientas de contratación con IA ocultan sus sesgos, por qué un rechazo puede convertirse en un rechazo en todas partes y por qué la evaluación independiente a nivel de puesto ya no es opcional.
Leer
InvestigaciónAbrir para leerLa confianza digital es una órbita, no un pilar
La confianza no es un pilar más que añadir. Es la órbita que tres cuerpos trazan juntos: el modelo, la persona y la organización. Por qué el problema de los tres cuerpos es la metáfora más honesta para una IA fiable y cómo saber en qué punto de la órbita se encuentra.
Leer
