Un equipo de investigadores ha presentado un estudio que reaviva las preocupaciones sobre la privacidad en el uso de la inteligencia artificial. Han demostrado que es factible determinar el prompt exacto que un usuario utilizó al interactuar con un chatbot, lo que coloca a las empresas de IA en una situación comprometida. Ahora tienen la capacidad, más que nunca, de conocer información detallada sobre nosotros.
Un estudio inquietante
Si alguien escucha que «los modelos lingüísticos son inyectivos y, por lo tanto, invertibles», probablemente quedará sorprendido. Este es el título del estudio realizado por investigadores europeos que argumentan que los grandes modelos de lenguaje (LLM) enfrentan serios problemas de privacidad. La arquitectura transformer está diseñada de tal manera que a cada prompt distinto le corresponde una «incrustación» única dentro del espacio latente del modelo.
Un algoritmo revelador
Durante su investigación, los científicos desarrollaron un algoritmo denominado SIPIT (Sequential Inverse Prompt via ITerative updates). Este algoritmo tiene la capacidad de reconstruir el texto de entrada exacto a partir de las activaciones o estados ocultos, garantizando que lo hará en un tiempo lineal. En otras palabras, es posible que el modelo «revele» la información de manera rápida y sencilla.
Implicaciones de estos hallazgos
Lo que esto implica es que la respuesta obtenida al utilizar un modelo de IA puede revelar exactamente lo que se le preguntó. No es la respuesta en sí la que delata, sino los estados ocultos o embeddings que utilizan los modelos de IA para generar la respuesta final. Este es un problema grave, ya que las empresas de IA suelen almacenar estos estados ocultos, lo que les permitiría, en teoría, conocer el prompt de entrada con total precisión.
El almacenamiento de prompts por parte de las empresas
Es cierto que muchas empresas ya almacenaban los prompts, pero esta «inyectividad» genera un riesgo adicional para la privacidad. Muchos embeddings o estados internos se almacenan para propósitos como el cacheo, el monitoreo o la personalización. Si una empresa elimina solo la conversación en texto plano sin borrar el archivo de embeddings, el prompt sigue siendo recuperable. El estudio concluye que cualquier sistema que almacene estados ocultos está manejando efectivamente el texto de entrada mismo.
Consecuencias legales
Además, existe un componente legal preocupante. Hasta ahora, reguladores y empresas sostenían que los estados internos no se consideraban «datos personales recuperables», pero esta invertibilidad cambia las reglas del juego. Si una empresa de IA asegura que «no guarda los prompts», pero sí almacena los estados ocultos, esa supuesta garantía de privacidad pierde su efectividad.
Riesgos de filtraciones de datos
A primera vista, no parece sencillo para un atacante acceder a esos embeddings, ya que primero tendría que conseguir acceso a ellos. Sin embargo, una violación de seguridad que conduzca a la fuga de una base de datos de estos estados internos ya no se consideraría una exposición de datos «abstractos» o «cifrados», sino que podría convertirse en una fuente de información en texto plano que revelaría, por ejemplo, datos financieros o contraseñas que un usuario ha utilizado al interactuar con el modelo de IA.
Derecho al olvido y su complejidad
La inyectividad de los LLM también complica el cumplimiento de normativas de protección de datos, como el RGPD o el «derecho al olvido». Si un usuario solicita la eliminación total de sus datos a una empresa como OpenAI, esta debe asegurarse de eliminar no solo los registros de chats visibles, sino también todas las representaciones internas (embeddings). Si algún estado oculto persiste en algún registro o caché, el prompt original seguiría siendo potencialmente recuperable.