El organismo francés de control de la privacidad contempla la protección contra el "scraping" de datos en su plan de acción sobre IA

Sólo para suscriptores

In order to view this content please choose a subscription plan. Click the button to view the plans.

El organismo francés de control de la privacidad, la CNIL, ha publicado un plan de acción para la inteligencia artificial que ofrece una instantánea de dónde centrará su atención, incluidas las tecnologías de IA generativa como ChatGPT de OpenAI, en los próximos meses y más adelante.

En el seno de la CNIL se ha creado un Servicio de Inteligencia Artificial dedicado a analizar la tecnología y elaborar recomendaciones sobre «sistemas de IA respetuosos con la privacidad».

Uno de los principales objetivos declarados del organismo regulador es dirigir el desarrollo de una IA «que respete los datos personales», por ejemplo desarrollando los medios para auditar y controlar los sistemas de IA con el fin de «proteger a las personas».

Comprender el impacto de los sistemas de IA en las personas es otro de los objetivos principales, junto con el apoyo a los agentes innovadores del ecosistema local de IA que apliquen las mejores prácticas de la CNIL.

«La CNIL quiere establecer normas claras que protejan los datos personales de los ciudadanos europeos para contribuir al desarrollo de sistemas de IA respetuosos con la privacidad», escribe.

Apenas pasa una semana sin que los tecnólogos vuelvan a pedir a los reguladores que se ocupen de la IA. Ayer mismo, durante su comparecencia en el Senado de Estados Unidos, Sam Altman, consejero delegado de OpenAI, pidió a los legisladores que regularan la tecnología, sugiriendo un régimen de licencias y pruebas.

Sin embargo, los reguladores de la protección de datos en Europa ya han avanzado mucho en este sentido, y empresas como Clearview AI ya han sido sancionadas en todo el bloque por el uso indebido de datos personales, por ejemplo. Por su parte, el chatbot de IA Replika se ha enfrentado recientemente a sanciones en Italia.

El ChatGPT de OpenAI también atrajo una intervención muy pública de la DPA italiana a finales de marzo, que llevó a la empresa a apresurarse con nuevas divulgaciones y controles para los usuarios, permitiéndoles aplicar algunos límites sobre cómo puede utilizar su información.

Al mismo tiempo, los legisladores de la UE están negociando un acuerdo sobre un marco basado en el riesgo para regular las aplicaciones de la IA, que el bloque propuso en abril de 2021.

Este marco, la Ley de IA de la UE, podría adoptarse a finales de año, y el reglamento previsto es otra de las razones que destaca la CNIL para preparar su plan de acción sobre IA, afirmando que el trabajo «también permitirá preparar la entrada en vigor del proyecto de Reglamento europeo sobre IA, que se está debatiendo actualmente».

Es probable que las actuales autoridades de protección de datos (APD) desempeñen un papel en la aplicación de la Ley de IA, por lo que será crucial que los reguladores adquieran conocimientos y experiencia en IA para que el régimen funcione eficazmente. Los temas y detalles en los que las DPA de la UE decidan centrar su atención pesarán en los parámetros operativos de la IA en el futuro, sin duda en Europa y, potencialmente, más allá, dado lo adelantado que está el bloque en lo que respecta a la elaboración de normas digitales.

El raspado de datos en el punto de mira

En cuanto a la IA generativa, el regulador francés de la privacidad está prestando especial atención a la práctica de algunos creadores de modelos de IA de extraer datos de Internet para crear conjuntos de datos que sirvan de entrenamiento a sistemas de IA como los grandes modelos lingüísticos (LLM), que pueden, por ejemplo, analizar el lenguaje natural y responder a las comunicaciones de forma similar a la humana.

Dice que un área prioritaria para su servicio de IA será «la protección de los datos disponibles públicamente en la web contra el uso del scraping, o raspado, de datos para el diseño de herramientas».

Se trata de un área incómoda para los creadores de LLM, como ChatGPT, que han confiado en el raspado silencioso de grandes cantidades de datos web para reutilizarlos como forraje de entrenamiento. Aquellos que han acaparado información web que contiene datos personales se enfrentan a un desafío legal específico en Europa – donde el Reglamento General de Protección de Datos (GDPR), en aplicación desde mayo de 2018, les exige tener una base legal para dicho procesamiento.

Hay una serie de bases legales establecidas en el GDPR, sin embargo, las opciones posibles para una tecnología como ChatGPT son limitadas.

En opinión de la DPA italiana, solo hay dos posibilidades: Consentimiento o intereses legítimos. Y puesto que OpenAI no pidió permiso a los usuarios individuales de la web antes de incorporar sus datos, la empresa se basa ahora en una alegación de intereses legítimos en Italia para el tratamiento; una alegación que sigue siendo investigada por el regulador local, Garante. (Recordatorio: Las sanciones del GDPR pueden escalar hasta el 4% de la facturación anual global, además de cualquier orden correctiva).

El reglamento paneuropeo contiene otros requisitos para las entidades que tratan datos personales, como que el tratamiento debe ser justo y transparente. Por tanto, herramientas como ChatGPT se enfrentan a retos jurídicos adicionales para evitar incumplir la ley.

Y, en particular, en su plan de acción, la CNIL francesa destaca la «imparcialidad y transparencia del tratamiento de datos subyacente al funcionamiento de [las herramientas de IA]» como una cuestión de interés particular que, según afirma, su Servicio de Inteligencia Artificial y otra unidad interna, el Laboratorio de Innovación Digital de la CNIL, priorizarán para su escrutinio en los próximos meses.

Otras áreas prioritarias que la CNIL señala para su análisis de la IA son:

La protección de los datos transmitidos por los usuarios cuando utilizan estas herramientas, desde su recogida (a través de una interfaz) hasta su posible reutilización y tratamiento mediante algoritmos de aprendizaje automático;
Las consecuencias para los derechos de las personas sobre sus datos, tanto en relación con los recogidos para el aprendizaje de modelos como con los que puedan proporcionar dichos sistemas, como los contenidos creados en el caso de la IA generativa;
La protección contra los prejuicios y la discriminación que puedan producirse;
Los retos de seguridad sin precedentes que plantean estas herramientas.

En su comparecencia de ayer ante un comité del Senado de EE.UU., Altman fue preguntado por los legisladores estadounidenses sobre el planteamiento de la empresa en materia de protección de la privacidad, y el CEO de OpenAI trató de delimitar el tema refiriéndose únicamente a la información proporcionada activamente por los usuarios del chatbot de IA, señalando, por ejemplo, que ChatGPT permite a los usuarios especificar que no quieren que su historial de conversaciones se utilice como datos de entrenamiento. (Una función que, sin embargo, no ofrecía inicialmente).

A la pregunta de qué medidas concretas ha tomado para proteger la privacidad, Altman respondió ante la comisión del Senado: «No formamos sobre ningún dato enviado a nuestra API. Así que si eres un cliente comercial nuestro y nos envías datos, no los tratamos en absoluto… Si utilizas ChatGPT puedes optar por que no tratemos tus datos. También puedes borrar tu historial de conversaciones o toda tu cuenta».

Pero no tiene nada que decir sobre los datos utilizados para entrenar el modelo en primer lugar.

El estrecho marco de Altman de lo que significa la privacidad eludió la cuestión fundamental de la legalidad de los datos de entrenamiento. Llámalo el «pecado original de la privacidad» de la IA generativa, si quieres. Pero está claro que eludir este tema va a ser cada vez más difícil para OpenAI y sus afines a medida que los reguladores europeos se pongan manos a la obra para aplicar las leyes de privacidad vigentes en la región a los potentes sistemas de IA.

En el caso de OpenAI, seguirá estando sujeta a un mosaico de enfoques de aplicación en toda Europa, ya que no tiene una base establecida en la región, por lo que no se aplica el mecanismo de ventanilla única del RGPD (como suele ocurrir con las grandes empresas tecnológicas), de modo que cualquier APD es competente para regular si cree que se están procesando datos de usuarios locales y que sus derechos están en peligro. Así, mientras que Italia intervino con dureza a principios de este año en ChatGPT, imponiendo una orden de suspensión del tratamiento de datos y abriendo una investigación sobre la herramienta, el organismo de control francés no anunció una investigación hasta abril, en respuesta a las quejas recibidas. (España también ha dicho que está investigando la tecnología, de nuevo sin ninguna acción adicional por el momento).

Otra diferencia entre las APD de la UE es que la CNIL parece estar interesada en examinar una serie de cuestiones más amplia que la lista preliminar de Italia, incluida la forma en que el principio de limitación de la finalidad del RGPD debe aplicarse a los grandes modelos lingüísticos como ChatGPT. Lo que sugiere que podría acabar ordenando una serie más amplia de cambios operativos si concluye que se está incumpliendo el RGPD.

«La CNIL someterá próximamente a consulta una guía sobre las normas aplicables a la puesta en común y la reutilización de datos», escribe. «Este trabajo incluirá la cuestión de la reutilización de datos de libre acceso en Internet y que ahora se utilizan para el aprendizaje de muchos modelos de IA. Por lo tanto, esta guía será pertinente para algunos de los tratamientos de datos necesarios para el diseño de sistemas de IA, incluidas las IA generativas.

«También continuará su trabajo sobre el diseño de sistemas de IA y la creación de bases de datos para el aprendizaje automático. Estos darán lugar a varias publicaciones a partir del verano de 2023, tras la consulta que ya se ha organizado con varios actores, con el fin de proporcionar recomendaciones concretas, en particular en lo que respecta al diseño de sistemas de IA como ChatGPT.»

He aquí el resto de los temas que, según la CNIL, se abordarán «progresivamente» a través de las futuras publicaciones y orientaciones sobre IA que elabore:

el uso del sistema de investigación científica para el establecimiento y reutilización de bases de datos de formación;
la aplicación del principio de propósito a las IA de propósito general y los modelos básicos, como los modelos de lenguaje extenso;
la explicación del reparto de responsabilidades entre las entidades que componen las bases de datos, las que elaboran modelos a partir de esos datos y las que utilizan esos modelos;
las normas y mejores prácticas aplicables a la selección de datos para la formación, teniendo en cuenta los principios de precisión y minimización de datos;
la gestión de los derechos de las personas, en particular los derechos de acceso, rectificación y oposición;
las normas aplicables sobre la vida útil, en particular para las bases de formación y los modelos más complejos que se utilizarán;
finalmente, consciente de que los problemas que plantean los sistemas de inteligencia artificial no se detienen en su concepción, la CNIL también prosigue sus reflexiones éticas [tras un informe que publicó en 2017] sobre el uso y el intercambio de modelos de aprendizaje automático, la prevención y corrección de sesgos y discriminación, o la certificación de sistemas de IA.

En materia de auditoría y control de los sistemas de IA, el regulador francés estipula que sus acciones este año se centrarán en tres áreas: Cumplimiento de una posición existente sobre el uso de videovigilancia ‘mejorada’, que publicó en 2022; el uso de la IA para combatir el fraude (como el fraude a la seguridad social); y en la investigación de denuncias.

También confirma que ya ha recibido quejas sobre el marco legal para la capacitación y el uso de IA generativas, y dice que está trabajando en aclaraciones al respecto.

“La CNIL, en particular, ha recibido varias denuncias contra la empresa OpenAI, que gestiona el servicio ChatGPT, y ha abierto un procedimiento de control”, añade, señalando la existencia de un grupo de trabajo específico que se creó recientemente en el seno de la Comisión Europea de Protección de Datos. Junta para tratar de coordinar cómo las diferentes autoridades europeas abordan la regulación del chatbot de IA (y producir lo que anuncia como un «análisis armonizado del procesamiento de datos implementado por la herramienta OpenAI»).

En otras palabras de advertencia para los fabricantes de sistemas de IA que nunca pidieron permiso a las personas para usar sus datos y pueden esperar un perdón futuro, la CNIL señala que prestará especial atención a si las entidades que procesan datos personales para desarrollar, capacitar o usar Los sistemas de IA tienen:

llevó a cabo una evaluación de impacto de la protección de datos para documentar los riesgos y tomar medidas para reducirlos;
tomado medidas para informar a la gente;
medidas previstas para el ejercicio de los derechos de las personas adaptadas a este contexto particular.

En cuanto al apoyo para los jugadores innovadores de IA que quieren cumplir con las reglas (y valores) europeos, la CNIL ha tenido un entorno de pruebas regulatorio en funcionamiento durante un par de años, y está alentando a las empresas e investigadores de IA que trabajan en el desarrollo de sistemas de IA que juegan agradable con las normas de protección de datos personales para ponerse en contacto (a través de ia@cnil.fr).

Busque su consulta

Enlaces útiles

Technologies:

Categorías

Enlaces útiles

El organismo francés de control de la privacidad contempla la protección contra el «scraping» de datos en su plan de acción sobre IA

Sólo para suscriptores

El raspado de datos en el punto de mira

Earth AI encuentra minerales críticos en lugares que los demás ignoraron

AI en las aulas: Brisk recauda 15 millones

China mantiene a Deepseek bajo control

ElevenLabs está lanzando su modelo de voz a texto

xAI adquiere X

Earth AI encuentra minerales críticos en lugares que los demás ignoraron

La tecnología europea pide una acción radical de la UE

Categorías

Enlaces útiles

¿Listo para suscribirte?

Bienvenid@ a TRPlane.com

Enlaces útiles

Categorías

Enlaces útiles

El organismo francés de control de la privacidad contempla la protección contra el «scraping» de datos en su plan de acción sobre IA

Sólo para suscriptores

El raspado de datos en el punto de mira

Earth AI encuentra minerales críticos en lugares que los demás ignoraron

AI en las aulas: Brisk recauda 15 millones

China mantiene a Deepseek bajo control

ElevenLabs está lanzando su modelo de voz a texto

xAI adquiere X

Earth AI encuentra minerales críticos en lugares que los demás ignoraron

La tecnología europea pide una acción radical de la UE

.tdi_195{margin-bottom:10px!important} .tdi_195{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_195{font-size:16px!important}}Categorías

.tdi_199{margin-bottom:10px!important} .tdi_199{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_199{font-size:16px!important}}Enlaces útiles

.tdi_202{margin-bottom:10px!important} .tdi_202{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_202{font-size:16px!important}}¿Listo para suscribirte?

Bienvenid@ a TRPlane.com

Categorías

Enlaces útiles

¿Listo para suscribirte?