Cuando interactuamos con chatbots y otras herramientas basadas en IA, solemos hacerles preguntas sencillas como "¿Cómo estará elá hoy?" o "¿Llegarán los trenes a tiempo?". Quienes no están involucrados en el desarrollo de la IA probablemente asumen que todos los datos se vierten en un único sistema gigante y omnisciente que procesa instantáneamente las consultas y ofrece respuestas. Sin embargo, la realidad es más compleja y, como se demostró en Black Hat Europe 2024, los sistemas podrían ser vulnerables a la explotación.

Una presentación de Ben Nassi, Stav Cohen y Ron Bitton, durante el Black Hat Europe 2024, detalló cómo los actores maliciosos podrían eludir las garantías de un sistema de IA para subvertir sus operaciones o explotar el acceso al mismo. Demostraron que formulando a un sistema de IA algunas preguntas específicas, es posible diseñar una respuesta que cause daños, como un ataque de denegación de servicio.

Crear bucles y sobrecargar los sistemas

Para muchos de nosotros, un servicio de IA puede parecer una fuente única. Sin embargo, en realidad depende de muchos componentes interconectados o, como los denominó el equipo que lo presentó, agentes. Volviendo al ejemplo anterior, la consulta sobre el tiempo y los trenes necesitará datos de agentes distintos: uno que tenga acceso a los datos meteorológicos y otro a las actualizaciones del estado de los trenes.

El modelo -o el agente maestro, al que los ponentes llamaron "el planificador"- debe integrar los datos de cada agente para formular las respuestas. Además, el sistema se protege para evitar que responda a preguntas inapropiadas o fuera de su alcance. Por ejemplo, algunos sistemas de IA podrían evitar responder a preguntas políticas.

Sin embargo, como demostraron los investigadores, estas barreras pueden manipularse y provocar que algunas preguntas concretas desencadenen bucles interminables. Un atacante que pueda establecer los límites de las barreras de seguridad puede formular una pregunta que proporcione continuamente una respuesta prohibida. La creación de suficientes instancias de la pregunta acaba por saturar el sistema y desencadena un ataque de denegación de servicio.

Cuando se implementa esto en un escenario cotidiano, como hicieron los presentadores, entonces se ve lo rápido que esto puede causar daños. Un atacante envía un correo electrónico a un usuario que tiene un asistente de IA, incrustando una consulta que es procesada por el asistente de IA, y se genera una respuesta. Si siempre se determina que la respuesta no es segura y se solicita una reescritura, se crea el bucle de un ataque de denegación de servicio. Si se envía un número suficiente de correos de este tipo, el sistema se detiene, agotando su potencia y sus recursos.

Queda, por supuesto, la cuestión de cómo extraer del sistema la información sobre las barreras de seguridad para poder explotarla. El equipo demostró una versión más avanzada del ataque anterior, que consistía en manipular el propio sistema de IA para que proporcionara la información de fondo a través de una serie de preguntas aparentemente inocuas sobre su funcionamiento y configuración.

Una pregunta como "¿Con qué sistema operativo o versión de SQL funciona?" puede obtener una respuesta relevante. Esto, combinado con información aparentemente no relacionada sobre el propósito del sistema, puede proporcionar suficiente información como para enviar comandos de texto al sistema y, si un agente tiene acceso privilegiado, conceder involuntariamente este acceso al atacante. En términos de ciberataque, esto se conoce como "escalada de privilegios", un método en el que los atacantes aprovechan las debilidades para obtener niveles de acceso superiores a los previstos.

La amenaza emergente de la ingeniería social de los sistemas de IA

El presentador no concluyó con lo que yo me llevo de su sesión: en mi opinión, lo que demostraron es un ataque de ingeniería social a un sistema de IA. Le haces preguntas a las que responde con gusto, al tiempo que posiblemente permites que actores maliciosos reúnan las piezas individuales de información y utilicen el conocimiento combinado para burlar los límites y extraer más datos, o para hacer que el sistema realice acciones que no debería.

Y si uno de los agentes de la cadena tiene derechos de acceso, eso podría hacer que el sistema fuera más explotable, permitiendo al atacante utilizar esos derechos en su propio beneficio. Un ejemplo extremo utilizado por el ponente fue el de un agente con privilegios de escritura de archivos; en el peor de los casos, el agente podría ser utilizado indebidamente para cifrar datos y bloquear el acceso a otros, un escenario comúnmente conocido como incidente de ransomware.

La ingeniería social de un sistema de IA a través de su falta de controles o derechos de acceso demuestra que es necesaria una cuidadosa consideración y configuración a la hora de desplegar un sistema de IA para que no sea susceptible de ataques.