Un grupo de investigadores ha desarrollado un gusano informático que tiene la capacidad de propagarse entre agentes de Inteligencia Artificial (IA) generativa, implementar 'malware' en ellos y robar datos de los usuarios.
Este gusano, denominado Morris II en referencia al considerado primer 'malware' de la historia e identificado en 1988, Morris, se ha creado para demostrar los riesgos de los ecosistemas autónomos y conectados por la IA generativa, según han explicado los desarrolladores en Wired.
El equipo de expertos, formado por el investigador de Cornell Tech Ben Nassi y otros dos compañeros, Stav Cohen y Ron Britton, ha demostrado cómo el gusano puede atacar a un asistente de correo electrónico de IA generativa para robar información de los usuarios y enviar mensajes de 'spam', sobrepasando algunos sistemas de seguridad de ChatGPT y Gemini durante el ataque.
En primer lugar, han recordado que la mayoría de los sistemas de IA generativa funcionan mediante instrucciones, que permiten a las herramientas responder una pregunta o crear una imagen. Sin embargo, estas indicaciones también se pueden emplear contra el sistema, para que la IA generativa ignore su principal finalidad y sobrepase los límites de seguridad.
Para probar este gusano, los investigadores crearon un sistema de correo electrónico de prueba, capaz de enviar y recibir mensajes utilizando IA generativa de ChatGPT y Gemini, así como el modelo de lenguaje grande (LLM) de código abierto LLaVA.
En esta simulación, los investigadores escribieron un correo electrónico capaz de "envenenar" la base de datos del asistente de correo electrónico usando la generación mejorada por recuperación (RAG, por sus siglas en inglés), un proceso que permite a los LLM obtener datos adicionales desde el exterior.
Una vez el RAG recupera el correo electrónico, envía estos datos a GPT-4 o Gemini Pro para elaborar una respuesta, haciendo 'jailbreak' -esto es, instalando 'software' diferente al del fabricante- en el servicio GenAI.
La respuesta generada, por tanto, "contiene datos confidenciales del usuario e infecta posteriormente nuevos 'hosts' cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en su base de datos", según ha explicado Nassi.
Por otra parte, el equipo de ingenieros probó a distribuir una imagen con un mensaje malicioso incrustado, que hizo que el asistente de correo electrónico reenviase el mensaje a otras personas. Esto fue posible porque se codificó el mensaje autorreplicante en la imagen, de modo que cualquier tipo de imagen contenedora de 'spam' o material dañino se puede reenviar a nuevos clientes o usuarios después de haber remitido el correo electrónico original.
En este proceso se puede extraer datos de los correos electrónicos en cuestión, como los nombres, los números de teléfono, los números de tarjetas de crédito "y cualquier cosa que se considere confidencial", en palabras del investigador.
Con este trabajo, los analistas buscan demostrar que existe un "mal diseño de arquitectura" dentro del ecosistema de IA, lo que advierte que los desarrolladores de estas herramientas deben fortalecer sus sistemas de seguridad para hacerlos "más resistentes".