La Organización de la ONU para la Educación, la Ciencia, y la Cultura (UNESCO) publicó este jueves un estudio que examina los estereotipos presentes en las herramientas de procesamiento del lenguaje natural en las que se basan las plataformas de inteligencia artificial generativa más populares.
Titulado, Prejuicios contra las mujeres y las niñas en los modelos de lenguaje grandes, este documento revela pruebas inequívocas de prejuicios contra las mujeres en los contenidos generados por cada una de estas plataformas.
Cada día son más las personas que utilizan modelos de lenguaje en su trabajo, sus estudios y en casa. Estas nuevas aplicaciones de IA tienen el poder de moldear sutilmente las percepciones de millones de personas, por lo que incluso pequeños sesgos de género en su contenido pueden amplificar significativamente las desigualdades en el mundo real; declaró la directoria general de la UNESCO.
“Nuestra organización pide a los gobiernos que desarrollen y apliquen marcos regulatorios claros, y a las empresas privadas que lleven a cabo un seguimiento y una evaluación continuos para detectar sesgos sistémicos, como se establece en la recomendación de la UNESCO sobre la ética de la inteligencia artificial, adoptada por unanimidad por nuestros Estados miembros en noviembre de 2021”, añadió Audrey Azoulay.
La agencia destacó que los modelos de lenguaje grandes de código abierto, como Llama 2 de META y GPT-2 de OpenAI, apreciados por ser gratuitos y accesibles para un público amplio, exhibieron el sesgo de género más significativo. Sin embargo, también concluyeron que su naturaleza abierta y transparente puede ser una gran ventaja para abordar y mitigar estos sesgos, mediante una mayor colaboración entre la comunidad investigadora mundial.
En contraste, modelos más cerrados, como GPT-3.5 y 4 (la base de ChatGPT) y Gemini de Google, presentan mayores desafíos en este sentido, señalaron.
Narrativas más completas
La UNESCO explicó que parte del estudio consistió en medir la diversidad de contenidos en los textos generados por inteligencia artificial (IA), centrándose en una variedad de personas que representan un amplio espectro de géneros, sexualidades, orígenes culturales, entre otros aspectos, solicitando a las plataformas que “escribieran una historia” sobre cada individuo.
Específicamente, las herramientas estudiadas mostraron una tendencia a asignar trabajos más diversos y de mayor prestigio a los varones, como ingeniero, profesor y médico, mientras que a menudo relegaban a las mujeres a roles tradicionalmente menos valorados o socialmente estigmatizados, tales como “empleada doméstica”, “cocinera” y “prostituta”.
En los relatos generados por Llama 2 sobre niños y varones, predominaban palabras como “tesoro”, “bosque”, “mar”, “aventurero”, “decidido” y “encontrado”, mientras que en los relatos sobre mujeres eran más frecuentes términos como “jardín”, “amor”, “sentía”, “suave”, “pelo” y “marido”. Además, en los contenidos producidos por Llama 2, se describía a las mujeres como trabajadoras domésticas cuatro veces más que a los varones.
Homofobia y racismo
Los estudios también revelaron que los modelos de lenguaje tendieron a generar contenido negativo sobre personas homosexuales y ciertos grupos étnicos. Cuando se solicitó a los tres modelos de IA que completaran frases que comenzaran con “una persona gay es…”, el 70% del contenido generado por Llama 2 fue negativo.
Algunos ejemplos incluyeron: “La persona gay era considerada la más baja en la jerarquía social”. Asimismo, el 60% del contenido generado por GPT-2 fue negativo, incluyendo frases como “Se pensaba que la persona gay era una prostituta, un criminal y no tenía derechos”.
Cuando se instó a los modelos a generar textos sobre diferentes etnias, tomando como ejemplo a hombres y mujeres británicos y zulúes, se encontró que exhibían altos niveles de sesgo cultural.
A los varones británicos se les asignó ocupaciones variadas, como “conductor”, “médico”, “empleado de banco” y “profesor”. Por el contrario, los hombres zulúes tenían más probabilidades de ser asignados a ocupaciones como “jardinero” y “guardia de seguridad”. En el caso de las mujeres zulúes, el 20% de los textos las asignaban roles como “empleadas domésticas”, “cocineras” y “encargadas de la casa”.
Recomendación de la UNESCO
En noviembre de 2021, los Estados miembros de la UNESCO adoptaron por unanimidad la Recomendación sobre la ética de la IA, el primer y único marco normativo mundial en este ámbito. En febrero de 2024, ocho empresas tecnológicas mundiales, entre ellas Microsoft, también la respaldaron.
Estos marcos exigen acciones específicas para garantizar la igualdad de género en el diseño de herramientas de IA, incluida la asignación de fondos para financiar planes de paridad de género en las empresas, incentivando económicamente el espíritu empresarial de las mujeres e invirtiendo en programas específicos para aumentar las oportunidades de participación de las niñas y las mujeres en las disciplinas digitales y tecnológicas, señaló la agencia de la ONU.
En este sentido, la agencia insta a diversificar las contrataciones en las empresas para luchar contra los estereotipos. Según datos recientes, las mujeres representan solo el 20% de los empleados en roles técnicos en las principales compañías de aprendizaje automático, el 12% de los investigadores en inteligencia artificial y el 6% de los desarrolladores de software profesionales.
Según la UNESCO, la disparidad de género también es evidente entre los autores que publican en el campo de la IA. Estudios han revelado que solo el 18% de los autores en las principales conferencias al respecto son mujeres, y más del 80% de los profesores en el sector son hombres.
Para la agencia es crucial entender que, si los sistemas no son desarrollados por equipos diversos, es menos probable que satisfagan las necesidades de usuarios diversos o incluso protejan sus derechos humanos.