AnalyticsMachine Learning

Ética, Leyes y Machine Learning

En este artículo simplemente pretendo iniciar una conversación sobre si los modelos predictivos que utilizan Facebook, Google, Amazon u otras grandes corporaciones son éticos, si las predicciones realizadas por las máquinas son realmente imparciales y si estos modelos vulneran nuestros derechos individuales. No entraremos en el detalle de la normativa GDPR europea, será una visión más sencilla y ética del problema.

Recientemente me he certificado en un curso de Microsoft llamado Ethics and Law in Data and Analytics a través de la plataforma de e-learning edX y la verdad es que me ha sorprendido, porque no había pensado en muchas de las cuestiones éticas que se plantean en dicho curso. Siempre me había planteado la analítica predictiva como una evolución tecnológica que aporta un valor increíble a las empresas pero que también supone una ventaja para los usuarios y clientes de esas empresas, ya que al conocerles mejor podrán recibir ofertas, servicios o productos más adecuados para ellos.

Nuevas tecnologías, nuevos conflictos

La realidad es que con la irrupción de una nueva tecnología en el mercado, siempre se producen nuevos conflictos. Gran parte del problema reside justamente ahí, en que la tecnología avanza a un ritmo que las leyes no pueden alcanzar.

Por ello, cuando aparecen no hay una legislación que las controle y ahí es donde entra en escena la ética empresarial. Inicialmente los jueces tienen que usar leyes antiguas para controlar la nueva situación creada, por lo que pueden quedar partes sujetas a la interpretación de la ley en estos nuevos campos. Un juez tenderá a aplicar la ética para cubrir esos vacíos legales, por lo que actuar éticamente al diseñar y usar nuestros modelos predictivos puede ahorrarnos muchos disgustos legales.

Escena de La Red Social basada en la historia de Facebook
Escena de La Red Social basada en la historia de Facebook

Pero, ¿qué conflictos aparecen concretamente en la implementación de modelos predictivos? Intentaré describirlos a continuación incluyendo algunos ejemplos reales.

1. Las predicciones de las máquinas no son imparciales

Todos imaginamos un futuro al estilo de la película Minority Reports donde las máquinas toman decisiones predictivas en vez de los humanos ya que ellas no se dejan influenciar por los sentimientos y porque se suponen imparciales. De este modo, se asegura que la decisión tenga como objetivo el bien común.

Pero la parcialidad de las decisiones de los modelos de Machine Learning es real, y puede darse en dos momentos concretos:

  • El aprendizaje: todo modelo se debe “entrenar”, normalmente con datos históricos, para enseñarle como tomar las decisiones. Si el histórico se basa en decisiones realizadas hasta ahora por humanos, y asumimos que somos subjetivos, estamos implementando indirectamente la parcialidad en el modelo.
  • El diseño del modelo: un punto crítico del diseño es aquel en el que de todas las variables disponibles, el científico de datos elige aquellas que entiende que influyen más en la predicción a realizar. Según quién haga el modelo las variables descartadas y su pequeña influencia en el resultado pueden variar, por lo que añade también parcialidad a la decisión.

Veamos un ejemplo práctico para entender la posible imparcialidad de los modelos predictivos, en este caso en el ámbito judicial:

COMPAS: el algoritmo de predicción de reincidencia delictiva usado en Estados Unidos

Alrededor de 2013, algunos tribunales en Estados Unidos empezaron a utilizar como herramienta para sus sentencias un modelo predictivo llamado COMPAS (Correctional Offender Management Profiling for Alternative Sanctions). El sistema predecía el riesgo de reincidencia de un acusado en un juicio basándose en su historial delictivo y en el histórico de reincidentes.

Pero, ¿se puede realizar una predicción así de manera imparcial? ¿Podemos estar seguros que no privaremos de libertad a alguien de manera errónea?

Si el modelo se basa en sentencias previas que habían sido realizadas por jueces reales, y estos tienen prejuicios y cierta subjetividad, probablemente se haya traspasado esta parcialidad al modelo. De hecho, ante el mismo delito e historial delictivo, un acusado de raza negra tenía un 45% más de probabilidad de delinquir que uno blanco según COMPAS.

Escena de Minority Report
Escena de Minority Report

Recientemente se ha realizado un estudio que prueba que las predicciones de COMPAS no son mucho mejores que las de voluntarios elegidos al azar por Internet. Podéis ver el estudio en este link.

2. El acceso a los datos sensibles

Las leyes son territoriales, esto es, en cada región o país existen diferentes leyes que regulan la convivencia de sus habitantes. En la actualidad se están implementando diferentes leyes para proteger la privacidad de las personas, como es el caso de la normativa GDPR en Europa.

Todas las normativas referentes a la recolección de datos, independientemente del país, tienen en común la definición de una serie de datos denominados “sensibles”, esto es, que se deben tratar con mayor cuidado y que estarán vigilados en mayor medida por la ley. Este puede ser el caso de datos de tendencia sexual, raza, financieros o de origen genético.

Los modelos de predicción deben tener cuidado en dos sentidos con respecto a estos datos sensibles:

  • El origen de los datos: deben poder explicar como se han obtenido estos datos y poder probar la autorización del sujeto.
  • Su uso en el modelo predictivo: no deben usarse como variable si eso puede producir una discriminación por alguna de estas características ya que iría en contra de los Derechos Humanos.
Escena de la película Terminator
Escena de la película Terminator

El problema principal ha surgido porque las empresas han sido capaces de usar estos datos sensibles sin necesidad de obtenerlos. Seguramente te preguntarás cómo es posible y para explicarlo pondremos 2 ejemplos:

Uso de variables otras variables como “proxy” del dato sensible

Puede que utilizar la raza del usuario pueda ser ilegal, pero en algunos algoritmos utilizan el código postal como “aproximación”. En Estados Unidos hay barrios que tienen una mayoría racial muy clara, y esto es aprovechado por los diseñadores del modelo para poder usar datos geográficos para sustituir la raza.

Facebook es capaz de predecir por tus likes tu religión, raza y tendencia sexual

Un ejemplo más avanzado es el caso de Facebook, que no usa una variable sustitutiva, sino que crea un modelo específico para predecir estos datos sensibles en base a otras variables, en su caso los “likes”.

Si queréis profundizar más en este caso, os dejo este link a la noticia de la CNN.

3. El conflicto entre los intereses empresariales y la privacidad de las personas

Por un lado, las empresas están obteniendo grandes beneficios por disponer y analizar los datos personales a través de sus algoritmos. Por otro, en el punto anterior hemos hablado de leyes como GPDR que protegen al usuario de poder solicitar explicaciones a las empresas de cómo se usan sus datos.

Imaginemos el caso del algoritmo del buscador de Google. Gracias a tener el mejor algoritmo, se ha convertido en el buscador más usado y eso le ha permitido obtener muchos ingresos por los anuncios pagados en su buscador.

¿Qué pasaría si yo usase el derecho que me otorga el GDPR y pidiese explicaciones a Google de por qué mi blog no sale en primera página del buscador cuando buscas por “power bi”, “machine learning” o palabras similares? (tranquilos, estamos trabajando en mejorar nuestro posicionamiento y de momento no denunciaremos a Google).

Sólo le estaría pidiendo la explicación de como usan los datos de mi blog para posicionarlo en una página concreta, pero para responderme seguramente tendrían que revelar parte del funcionamiento o diseño de su algoritmo.

Esto choca frontalmente con el derecho de Google a la propiedad intelectual, ya que su algoritmo esta patentado y es secreto porque si el resto de empresas lo conociesen eliminarían su ventaja competitiva.

Escena de la película El Show de Truman
Escena de la película El Show de Truman

No me preguntéis como se resolverá este conflicto, porque es lo que nos vendrá en los próximos años: gente que piensa que está siendo perjudicada por los algoritmos de las empresas y que exige su derecho a saber como usan sus datos. En el otro extremo estará la empresa que no quiere revelar su algoritmo y se escudará en la propiedad intelectual. El ejemplo del buscador de Google es muy básico, pero pensad que este tipo de algoritmos se empiezan a usar en Hospitales para ver en que momento dan de alta a un paciente, en Universidades para decidir si admiten o no a un alumno en base a la predicción de éxito en al carrera elegida, etc.

4. Los “olvidados” de la era digital

Uno de los conflictos al que prestamos menos atención es el de los “olvidados” de la era digital. Más de la mitad de la población en todo el mundo, y casi un 20% de los habitantes de países desarrollados no tienen acceso a Internet.

Todos los modelos predictivos de los que hemos hablado se alimentan básicamente de datos recogidos masivamente a través de la red o teléfonos móviles avanzados, pero ¿qué pasa con la gente que no está “conectada”? ¿quedarán fuera del modelo de negocio, país o ciudad que se construye con estas herramientas predictivas?

Escena de la película Único Testigo
Escena de la película Único Testigo

Por ejemplo, si un país decide realizar las inversiones en infraestructuras de carreteras basándose en un algoritmo que analice los datos de GPS de smartphones, las zonas con un mayor porcentaje de desconexión seguramente se verán perjudicadas al quedar oscurecidas para el modelo predictivo.

Conclusión final

Como os decía al principio de este post, simplemente quería plantear los conflictos éticos y legales que surgen con esta nueva tecnología, que normalmente quedan eclipsados por la espectacularidad de la misma y la gran variedad de usos que tiene.

Queda mucho recorrido por realizar en este campo, pero una cosa está clara: el dato ha cambiado la escala de poder.

La palabra “democracia” significa “el poder en el pueblo” refiriéndose a que es el pueblo el que elige a los gobiernos y tiene el poder de cambiarlo periódicamente. Y es el gobierno a su vez el que regula a las empresas.

Pero actualmente el dato es poder, y el dato lo poseen las empresas (los gobiernos no se han puesto al día en la captura de datos masiva de su población y están muy atrasados tecnologicamente). Por lo tanto las empresas empiezan a ejercer su poder sobre los gobiernos (porque necesitan sus datos) y sobre las personas (ya que les conocen mejor que ellos mismos en muchas ocasiones).

¿Qué os parece este concepto de ética en el mundo del análisis predictivo? ¿Lo habíais pensado antes? ¿Cómo creeis que se resolverá? Podéis dejar vuestros comentarios en el post.

¡SUSCRÍBETE YA!
Doy mi consentimiento para almacenar mis datos para envío de newsletters.
Si te suscribes a la newsletter tendrás acceso a los ficheros Power BI originales de nuestros tutoriales y post.

Además tendrás derecho a participar en sorteos periódicos que realizaremos en el blog.
We hate spam. Your email address will not be sold or shared with anyone else.
Mostrar más

Iván Arribas

Llevamos siglos generando, relacionando, modificando y almacenando datos....es hora de que les echemos un vistazo. Espero que este blog sirva de ayuda a los que quieran introducirse en este mundo de la Analítica de Datos, igual que me está sirviendo a mi.

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Iván Arribas Delgado.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Bluehost que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Botón volver arriba
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver
Privacidad