La IA confiable va mucho más allá de la mera privacidad para también cubrir aspectos éticos y de seguridad. Sin embargo, para una IA adecuada, primero debes conseguir una privacidad de datos correcta. Aprende más sobre los tres obstáculos más comunes para la privacidad al adoptar la IA y cómo evitarlos.
Bex Evans
Responsable sénior de marketing de productos
10 de junio de 2024
Gartner® predice que «para 2026, más del 80 % de las empresas habrán utilizado interfaces o modelos de programación de aplicaciones de inteligencia artificial generativa (GenAI), o habrán implementado aplicaciones habilitadas para GenAI en entornos de producción, en comparación con menos del 5 % en 2023».1
Al mismo tiempo, según la metodología del ciclo de sobreexpectación de Gartner, «el interés disminuye a medida que los experimentos y las implementaciones no logran cumplir con las expectativas. Por este motivo, los productores de la tecnología o bien se ven sacudidos o fracasan. De hecho, las inversiones solo prosiguen si los proveedores que continúan en el mercado mejoran sus productos de modo que satisfagan a los primeros consumidores en adoptarlos».2
Las investigaciones de Forrester identifican la privacidad de los datos y las preocupaciones de seguridad como la principal barrera a la hora de adoptar la IA generativa. La promoción de una IA fiable se extiende mucho más allá del dominio de la privacidad para también abarcar cuestiones éticas y de seguridad. Sin embargo, para una IA adecuada, primero debes conseguir una privacidad de datos correcta.
Esto se debe a que la IA amplifica las lagunas de privacidad existentes, puesto que un único punto de acceso mal configurado puede volverse exponencialmente más problemático cuando se ve expuesto a un sistema de IA. Al examinar el rol de la privacidad de los datos para los sistemas de IA, hay tres obstáculos para la privacidad que hay que tener en cuenta:
Aquí, exploraremos cada obstáculo con más detalle y analizaremos algunas prácticas comunes para abordar los riesgos asociados.
Un escenario común que ilustra la importancia del uso responsable de los datos es la recopilación de fechas de nacimiento para la verificación de identidad. En contextos como la autenticación en dos fases o de banca electrónica, es crucial verificar la identidad del individuo. Este proceso a menudo implica recopilar información confidencial, como la fecha de nacimiento.
Sin embargo, poseer estos datos para la verificación de identidad no otorga permiso de manera automática para usarlos para otros fines. Por ejemplo, si el equipo de marketing quiere utilizar las fechas de nacimiento para enviar ofertas de cumpleaños, primero se debe obtener el consentimiento explícito de los individuos para ello. Sin este consentimiento, el uso de fechas de nacimiento para marketing constituiría una violación de los principios de privacidad de datos.
La llegada de los grandes modelos de lenguaje (LLM) y la IA generativa agregan otra capa de complejidad a esta problemática.
Proporcionar información clara y detallada por adelantado es esencial para obtener el consentimiento informado, lo que significa que los individuos deben comprender en un lenguaje sencillo cómo se utilizarán sus datos a la hora de otorgar su consentimiento informado.
Un desafío importante al que se enfrentan las organizaciones es encontrar un equilibrio entre ofrecer suficiente contexto y evitar abrumar a los individuos con términos y condiciones largos que podrían, y a menudo pueden, simplemente omitir. La comunicación efectiva en el idioma del público meta es vital para garantizar que el consentimiento sea informado y no se trate únicamente de una formalidad.
Piensa en una herramienta de análisis de currículums que esté diseñada para agilizar las prácticas de contratación. Históricamente, las organizaciones podían excluir información confidencial como la raza, el sexo y el origen étnico de los currículums de los candidatos con el fin de minimizar los riesgos para la privacidad y reducir el riesgo en general si la solicitud fuera parte de una brecha. Sin embargo, excluir estos puntos de datos también puede impedir la identificación y mitigación de sesgos dentro del proceso de contratación.
El sesgo puede persistir incluso cuando se omiten datos sensibles, puesto que otros factores indirectos podrían contribuir a los resultados sesgados. Para analizar con precisión y garantizar una representación justa en un conjunto de datos, es necesario documentar y registrar los puntos de datos sensibles. Esto permite la supervisión proactiva del sistema para ver si es justo y para detectar posibles sesgos.
Un desafío común al que se enfrentan las organizaciones hoy en día es que es posible que no hayan recopilado información sobre raza, sexo o etnia al principio del proceso debido a preocupaciones sobre privacidad o a las posibles molestias que podrían causar a los solicitantes. En consecuencia, carecen de los datos necesarios para realizar evaluaciones exhaustivas que sean imparciales.
Para abordar estos desafíos, se pueden emplear tecnologías de mejora de la privacidad. Estas tecnologías, como la privacidad diferencial, los datos sintéticos, el cifrado homomórfico y el cálculo de múltiples partes, ayudan a proteger los datos confidenciales al mismo tiempo que permiten el análisis necesario. De hecho, permiten la protección de la privacidad de los individuos durante el tratamiento de los datos y el entrenamiento del modelo.
Sin embargo, es importante reconocer que no hay una solución única. Elegir una tecnología de mejora de la privacidad u otra depende del caso concreto y de la infraestructura que se haya implementado. En muchos casos, puede ser necesaria una combinación de varias tecnologías de mejora de la privacidad para proteger adecuadamente la privacidad mientras se mantiene la utilidad de los datos.
Para que el consentimiento sea lícito, debe otorgarse libremente y poder retirarse en cualquier momento. Este principio plantea un desafío significativo cuando un consumidor solicita que se eliminen sus datos en un sistema crítico para el negocio. Si estos procesos se basan en sistemas de IA que han sido entrenados con datos personales, la eliminación de dichos datos podría interrumpir la continuidad del negocio.
Los modelos de IA, al igual que el cerebro humano, no pueden simplemente olvidar la información una vez que se ha aprendido. La única solución es volver a una versión anterior del modelo, que se hubiera entrenado antes de que se incluyeran los datos en cuestión, y luego volver a entrenar el modelo sin esta información.
Esto requiere documentación sólida sobre el control de versiones de modelos, el control de versiones de los conjuntos de datos y el seguimiento detallado de las categorías e identificadores de datos para garantizar que los datos se pueden eliminar de forma precisa.
Las complejidades que se asocian con la aplicación de la gobernanza de datos y el reentrenamiento de modelos destacan la importancia de una documentación exhaustiva y un control preciso de las versiones. Esto implica mantener registros detallados de las versiones del modelo, los conjuntos de datos y los identificadores que se han utilizado para realizar un seguimiento de los puntos de datos individuales. Cuando un interesado revoca el consentimiento, estos registros permiten que se pueda revertir a un modelo anterior y volver a entrenarlo.
Vistos los desafíos en cuanto a la gobernanza de datos, hay razones suficientes para emplear la generación aumentada por recuperación (RAG). La RAG implica recuperar datos de una base de conocimientos externa para basar los grandes modelos de lenguaje (LLM) en la información más precisa y actualizada posible. Este enfoque ofrece varios beneficios:
Al utilizar la RAG, las organizaciones pueden mantener el control sobre los datos en el momento de la consulta en lugar de reentrenar los modelos de forma continua. Este enfoque ayuda a garantizar la continuidad del negocio y el cumplimiento de las normativas de privacidad de datos, incluso cuando se eliminan puntos de datos individuales debido a la retirada del consentimiento.
Seminario web
Acompáñanos en este webinar para explorar juntos el panorama normativo actual de la inteligencia artificial, con especial atención a la Ley de IA de la UE que entró en vigor el pasado 1 de agosto. Además, durante el webinar se hará una demostración práctica de nuestra solución AI Governance, que mostrará cómo puedes ayudar a tu organización a optimizar tus procesos de gestión, documentación y análisis.