Quando interagimos com chatbots e outras ferramentas baseadas em IA, geralmente fazemos perguntas simples como "Como estará o tempo hoje?" ou "Os trens chegarão no horário?". Para quem não está envolvido no desenvolvimento de IA, é comum imaginar que todos os dados são processados em um único sistema gigante e onisciente, capaz de oferecer respostas instantâneas. No entanto, a realidade é bem mais complexa e, como foi demonstrado no Black Hat Europe 2024, esses sistemas podem ser vulneráveis a explorações.
Uma apresentação de Ben Nassi, Stav Cohen e Ron Bitton durante o Black Hat Europe 2024 detalhou como cibercriminosos poderiam contornar as proteções de um sistema de IA para subverter suas operações ou explorar seu acesso. Eles demonstraram que, ao formular perguntas específicas para um sistema de IA, é possível gerar uma resposta que cause danos, como um ataque de negação de serviço (DDoS).
Criar loops e sobrecarregar sistemas
Para muitos de nós, um serviço de IA pode parecer uma fonte única de respostas. No entanto, na realidade, ele depende de vários componentes interconectados, ou como a equipe de apresentadores os chamou, agentes.
Voltando ao exemplo anterior, uma pergunta sobre o clima e os horários dos trens exigiria dados de agentes diferentes: um com acesso a informações meteorológicas e outro com atualizações sobre o status dos trens.
O modelo principal — ou agente mestre, denominado "o planejador" pelos apresentadores — precisa integrar os dados de cada agente para formular respostas precisas. Além disso, o sistema possui mecanismos de proteção para evitar responder a perguntas inadequadas ou fora de sua competência. Por exemplo, alguns sistemas de IA podem ser programados para não responder a perguntas de natureza política.
Como demonstraram os pesquisadores, essas barreiras de segurança podem ser manipuladas, fazendo com que perguntas específicas desencadeiem loops intermináveis. Um cibercriminoso que consiga identificar os limites dessas barreiras pode formular uma pergunta que gere continuamente uma resposta proibida. Criar instâncias suficientes dessa pergunta acaba saturando o sistema, resultando em um ataque de negação de serviço (DDoS).
Em um cenário cotidiano, como mostrado pelos apresentadores, fica evidente a rapidez com que isso pode causar danos. Um cibercriminoso pode enviar um e-mail a um usuário que utiliza um assistente de IA, inserindo uma pergunta maliciosa processada automaticamente pelo assistente. Se a resposta gerada for considerada insegura e constantemente solicitada para reescrita, cria-se um loop de processamento infinito.Se um número suficiente de e-mails desse tipo for enviado, o sistema pode travar, esgotando seus recursos computacionais e sua capacidade de resposta.
Resta, naturalmente, a questão de como extrair informações sobre as barreiras de segurança de um sistema para explorá-las. O grupo de pesquisadores demonstrou uma versão mais avançada do ataque anterior, manipulando o próprio sistema de IA para revelar detalhes internos através de uma série de perguntas aparentemente inofensivas sobre seu funcionamento e configuração.
Por exemplo, uma pergunta como "Com qual sistema operacional ou versão de SQL você trabalha?" pode resultar em uma resposta útil. Combinando essas informações com detalhes aparentemente não relacionados sobre a finalidade do sistema, é possível elaborar comandos de texto direcionados. Se algum agente tiver acesso privilegiado, pode conceder esse acesso ao atacante de forma involuntária. Em termos de cibersegurança, essa técnica é conhecida como escalada de privilégios, um método em que atacantes exploram vulnerabilidades para obter níveis de acesso superiores aos permitidos, comprometendo a segurança do sistema.
A ameaça emergente da engenharia social em sistemas de IA
O apresentador não concluiu com o ponto principal que eu extraí da sessão: na minha opinião, o que eles demonstraram foi um ataque de engenharia social direcionado a um sistema de IA. Faz-se perguntas aparentemente inofensivas às quais o sistema responde prontamente, permitindo que cibercriminosos reúnam informações fragmentadas e as combinem para ultrapassar limites de segurança, extrair mais dados ou induzir o sistema a realizar ações indesejadas.
Se um dos agentes na cadeia tiver direitos de acesso elevados, o sistema pode se tornar ainda mais vulnerável. Isso permitiria que atacantes explorassem esses direitos em benefício próprio. Um exemplo extremo mencionado pelo apresentador foi o caso de um agente com privilégios de escrita de arquivos. No pior cenário, esse agente poderia ser usado para criptografar dados e bloquear o acesso de outros usuários, configurando uma situação típica de um ataque de ransomware.
A exploração de um sistema de IA por meio de engenharia social, tirando proveito da falta de controles ou configurações inadequadas de acesso, destaca a necessidade de uma configuração meticulosa e de uma abordagem estratégica na implementação de sistemas de IA, para que eles não se tornem suscetíveis a ataques cibernéticos.