Lo que cuatro sesiones de grupo, la demostración de una herramienta de Fairness y más de cincuenta años de experiencia colectiva nos enseñaron sobre la Fairness en la IA. Del Trustworthy AI Circle, «¿Todo vale en la IA?»
La única respuesta en la que estuvimos de acuerdo
Comenzamos el Trustworthy AI Circle con más de cincuenta años de experiencia profesional combinada en la sala, y llegamos exactamente a una conclusión clara: ningún sistema ha sido nunca justo. Ninguna definición única de Fairness es válida en todos los contextos, roles e individuos.
Eso parece un callejón sin salida. Pero fue todo lo contrario. Era el único punto de partida sincero. Todo lo que resultó verdaderamente útil a continuación dependía de dejar clara esa premisa desde el principio, de modo que la sesión no se centró en fabricar un consenso. Se trató de quitarle la paja a una palabra que todo el mundo usa y que casi nadie define de la misma manera.
El experimento: cuatro salas, una herramienta
Para concretar la abstracción, dividimos a los asistentes en cuatro grupos y asignamos a cada uno un rol organizativo: Consejo de Administración, Operaciones, Negocio y Cumplimiento Normativo. A continuación, les planteamos a los cuatro el mismo escenario, una empresa que introduce una herramienta de selección de personal basada en IA, y les hicimos una pregunta engañosamente sencilla. Desde su puesto, ¿qué significaría realmente «justo»?
Luego dimos un paso atrás y dejamos que los asistentes fueran los expertos.
Hallazgo 1: La Fairness es irreduciblemente plural
Cada grupo elaboró una definición diferente de Fairness. Cada definición era internamente coherente. Ningún grupo afirmó que su definición no tuviera coste alguno.
Este es el resultado al que vuelvo una y otra vez. Lo «justo» no es una propiedad de la herramienta que se pueda medir una vez y certificar. Es un resultado negociado entre las partes interesadas, que tienen diferentes obligaciones principales. El Consejo de Administración responde ante el valor a largo plazo y la reputación. Cumplimiento Normativo responde ante la ley. Negocio responde ante el rendimiento y la explicabilidad. Operaciones responde ante el proceso y la auditabilidad. Cada uno tenía razón desde su perspectiva, y las definiciones no se conciliaron en una única cifra.
Si la Fairness fuera una propiedad del sistema, cuatro grupos de expertos que analizaran el mismo sistema convergerían. No lo hicieron. Divergieron, de forma clara y defendible, lo que indica que la propiedad reside en las relaciones que rodean a la herramienta, no en su interior.
Hallazgo 2: Incluso la «transparencia» se fragmenta
Todos los grupos exigieron transparencia. Eso parecía un terreno común hasta que pusimos en común nuestras notas, y resultó que la palabra significaba cuatro cosas diferentes.
Para Negocio, significaba la explicabilidad de las recomendaciones. Para el Consejo de Administración, significaba la responsabilidad cultural por las decisiones tomadas. Para el departamento Jurídico, significaba una divulgación controlada y defendible. Para Operaciones, significaba un proceso auditable y reproducible. Una palabra, cuatro requisitos incompatibles. Si un proveedor promete «transparencia» y un comprador entiende uno de estos cuatro significados mientras que el proveedor ofrece otro, la brecha no aparece hasta que el sistema ya está en producción y alguien pregunta quién es el responsable.
Hallazgo 3: La IA es un espejo, no una fuente
En mi parte de la sesión, analicé cómo se materializa esto en la contratación de personal, porque la selección de personal es donde la abstracción deja de ser académica. La lección es incómoda y merece la pena enunciarla con claridad: la IA no inventa la desigualdad. Sostiene un espejo.
Un modelo de selección de personal aprende de los datos históricos de contratación, y los datos históricos de contratación codifican las preferencias históricas. Incluso cuando se eliminan los atributos protegidos, los proxies vuelven a filtrar la misma señal. El prestigio de la universidad se correlaciona con el origen socioeconómico. El lenguaje del currículum también lo transmite, con términos como «lideró» y «ejecutó» puntuados más favorablemente que «colaboró» y «apoyó». El ejemplo público más citado, una de las primeras herramientas de contratación de una gran empresa tecnológica que aprendió a devaluar los currículos que contenían la palabra «femenino», no creó un nuevo sesgo. Reprodujo uno que ya estaba en los datos de entrenamiento y luego lo aplicó a gran escala con la tranquila confianza de algo que parece objetivo.
Este es el doble filo. La IA perpetúa los sesgos existentes con una eficiencia asombrosa y los consolida en las decisiones diarias. Al mismo tiempo, hace que ese sesgo sea legible. Extrae un patrón que era difuso y negable y lo convierte en un gráfico que se puede señalar, lo que obliga a plantear la pregunta que antes podíamos evitar: ¿es esto aceptable?
“Hacer que el sesgo sea visible en lugar de simplemente afirmado es la clave de todo. No se puede negociar una compensación que se rehúsa a ver.”
Hallazgo 4: Empezamos con las métricas y terminamos con la ética
Llegamos esperando una conversación sobre métricas y herramientas: paridad demográfica, igualdad de oportunidades, probabilidades igualadas, calibración. Nos fuimos habiendo establecido que la métrica es el último paso, no el primero.
Una métrica de Fairness por sí sola es solo «algo que mirar». El contexto situacional es lo que la convierte en la base para una decisión. La misma cifra de disparidad puede ser ruido estadístico en un entorno y un daño grave en otro, y solo el contexto le indica cuál es cuál. Si se elimina el contexto, se tiene un número. Si se mantiene, se tiene responsabilidad. Así que, antes de poder operacionalizar de forma significativa algo tan complejo como la Fairness, se necesita un debate dirigido por la ética y basado en la situación específica. Las matemáticas vienen después de eso, no antes.
Hallazgo 5: Siempre hay alguien que pierde
Ningún grupo escapó a la disyuntiva. Cada definición de Fairness beneficia a alguien y perjudica a otra persona. La igualdad de oportunidades protege contra la omisión de candidatos cualificados, pero no garantiza la igualdad de representación. La paridad demográfica hace lo contrario. No se pueden satisfacer todas a la vez, y la bibliografía de investigación deja claro que varias de estas definiciones son matemáticamente incompatibles.
Así que la verdadera decisión no es «¿es este sistema justo?». Es «¿a quién estamos dispuestos a dejar perder y podemos defender esa elección?». Esa es una decisión de valores con un disfraz técnico, y fingir lo contrario es la forma en que las organizaciones caminan sonámbulas hacia el perjuicio con un expediente de cumplimiento normativo impecable.
Qué significa esto para las organizaciones
De la jornada se desprendieron algunas consecuencias prácticas.
- 01Cada organización debe definir su propio conjunto de valores y hacerlos explícitos. La Fairness no puede delegarse a una configuración por defecto en una herramienta.
- 02Los intereses de las partes interesadas deben salir a la luz, debatirse y ponderarse explícitamente, en lugar de dejarse en manos de quienquiera que tome la decisión de compra.
- 03El valor para el accionista ya no puede reinar en solitario. Debe ponderarse frente al valor para el cliente a largo plazo, con un acceso equitativo que esté probado, sea transparente y del que se rinda cuentas al Consejo de Administración.
- 04Nada de esto es un ejercicio de una sola vez. La respuesta correcta cambia a medida que cambian la sociedad, la tecnología y los valores humanos, por lo que la ponderación debe revisarse, no establecerse una vez y archivarse.
El papel de Validant.ai
Creé Validant.ai para cerrar esta brecha. La plataforma no existe para etiquetar un sistema como “fair”, porque esa etiqueta sería deshonesta. Existe para hacer que las concesiones mutuas sean explícitas, probadas y auditables: una lectura independiente sobre a quién beneficia un sistema, a quién perjudica y si esa elección se hizo de forma consciente y defendible.
Piense en ello como una función de calificación para la AI fairness. No un veredicto que ponga fin a la conversación, sino una base de pruebas que haga que la conversación sea responsable, que conecte la métrica de nuevo con el contexto y que dé al Consejo de Administración algo que realmente pueda respaldar. La Fairness, matemáticamente, puede que nunca sea plenamente alcanzable. Elegir conscientemente quién saldrá perdiendo, documentar esa elección y actualizarla a medida que el mundo cambia, eso es alcanzable, y ese es el trabajo.
La carrera por la claridad
La investigación sobre la Fairness lleva décadas en marcha. Las definiciones siguen multiplicándose y la línea de meta sigue moviéndose. Sería fácil interpretar eso como un fracaso. No lo es. El único fracaso real sería dejar de correr en pos de la claridad o, peor aún, declarar que ya hemos llegado.
Un buen panel no es un acuerdo pulcro. Son diferentes perspectivas, fricción real y las preguntas que de verdad hay que hacer. Esa fricción no es un problema que deba limarse. Es humana, es necesaria y es donde realmente se produce el cambio.
Daniel Glinz trabaja en AI fairness, confianza digital y preparación regulatoria, y es el creador de Validant.ai. Si su organización está trabajando en estas mismas cuestiones, colabora directamente con empresas para hacer transparentes sus sesgos de IA y para reflexionar sobre las concesiones mutuas que impone cada elección de fairness. Póngase en contacto para continuar la conversación, ver una demostración o aprender a hacer visible el sesgo en sus propios sistemas.
¿Está tratando de definir qué significa la fairness para sus propios sistemas? Póngase en contacto para ver una demostración o para aprender a hacer transparentes sus sesgos de IA y a gestionar las concesiones mutuas que estos imponen.
EstudiosAbrir para leerLa pregunta equivocada, planteada a gran escala
Un estudio de referencia sobre 4 millones de solicitudes de empleo muestra cómo las herramientas de contratación con IA ocultan sus sesgos, por qué un rechazo puede convertirse en un rechazo en todas partes y por qué la evaluación independiente a nivel de puesto ya no es opcional.
Leer


