Quando a publicidade bate de frente com a realidade: a verdade sobre o machine learning

O machine learning (ML ou, em português, aprendizagem automática) é rotineiramente citada pelos fabricantes da pós-verdade como sua maior vantagem, ou melhor, seu “cavalo de batalha”.

A ESET passou anos aperfeiçoando as detecções automáticas, o nome que damos ao ML no contexto da cibersegurança. A seguir vamos apresentar alguns dos maiores desafios que temos observado e superado no decorrer da implementação dessa tecnologia em nossas soluções de uso doméstico ou corporativo.

Primeiro, para usar a aprendizagem automática você precisa de muitas fontes de informação, cada uma das quais deve ser corretamente rotulada. Em um aplicativo de cibersegurança isso se traduz em uma enorme quantidade de amostras, divididas em dois grupos: maliciosos e limpos. Passamos quase três décadas reunindo dados para treinar nosso sistema de machine learning.

De onde um vendedor de pós-verdade (recentemente estabelecido no mercado) obteria esses dados? A menos que recorra ao uso antiético da pesquisa do concorrente, não há maneira de criar um banco de dados suficientemente grande ou confiável.

Se entra lixo, sai lixo

Mesmo quando um algoritmo ML tem sido alimentado com uma grande quantidade de dados, ainda não há garantia de que ele possa identificar corretamente todas as novas amostras que encontra. Portanto, é necessária uma verificação humana. Sem isso, apenas um insumo de informação incorreta pode levar a um efeito “bola de neve” e possivelmente minar a solução até o ponto de fracasso total.

A mesma situação ocorre se o algoritmo usa seus próprios insumos de entrada e saída de dados. Dessa forma, qualquer erro é reforçado e multiplicado, pois o mesmo resultado incorreto entra em um loop e cria mais "lixo"; ou seja, falsos positivos ou itens maliciosos não detectados, que rapidamente volta a fazer parte da solução.

Essa ideia faz referência ao conceito “garbage in, garbage out”, que usualmente define a qualidade de um resultado. Caso seja obtido um resultado ruim ou deficitário, é porque os dados fornecidos no início da operação eram ruins ou deficitários. Portanto, se entra lixo, sai lixo.

Alguns fornecedores de segurança que clamam uma pós-verdade afirmam que situações semelhantes não podem acontecer com seus algoritmos de aprendizado automática, uma vez que podem identificar cada amostra antes de sua execução e determinar se está limpa ou é maliciosa apenas fazendo o cálculo correspondente.

No entanto, o famoso matemático, cientista da computação e criptógrafo Alan Turing (o homem que quebrou o código Enigma dos nazis durante a Segunda Guerra Mundial) provou que isso não é possível. Nem mesmo uma máquina perfeita seria sempre capaz de decidir se uma entrada futura desconhecida levaria a um comportamento indesejado - no caso de Turing, que faria o loop de máquina indefinidamente.

Fred Cohen, um cientista da computação que formulou a definição de um vírus informático, deu um passo adiante e demonstrou que isso também se aplica a cibersegurança. É o que ele chamou de "problema indecidível" para dizer se um programa agirá de maneira maliciosa se observarmos apenas sua aparência externa. O mesmo problema surge para as entradas de dados futuras, ou configurações específicas que podem empurrar um programa para a esfera maliciosa.

Então, como isso se aplica ao estado atual da cibersegurança? Se um fabricante afirma que o seu algoritmo de machine learning pode rotular cada amostra antes de executá-la e decidir se é maliciosa ou não, então teria que impedir preventivamente uma grande quantidade de elementos indecidíveis, inundando os departamentos de TI da empresa com falsos positivos.

A outra opção seria a detecção menos agressiva com menos falsos positivos. No entanto, se apenas a tecnologia de aprendizagem automática for aplicada, as taxas de detecção se distanciariam muito da suposta efetividade do "100%" que se promete.

O "jogo" da cibersegurança pode mudar a qualquer momento

Isso nos leva a um dos mais sérios limites na aplicação da tecnologia ML na cibersegurança: o adversário inteligente. Três décadas de experiência no campo nos mostraram que contrariar a um oponente, ou seja, a um ser humano, é um jogo de gato e rato que nunca termina. Cada vez que protegemos nossos clientes do malware, os atacantes tentam encontrar uma maneira de contornar as nossas soluções. Atualizamos e melhoramos nossa proteção, e eles procuram mais lacunas, e assim por diante.

A natureza em constante mudança do ambiente da cibersegurança torna impossível criar uma solução protetora universal, a menos que queiramos negar a existência do progresso em ambos os lados da barricada: white hat y black hat. A ESET acredita que temos de nos adaptar e responder ao cenário de ameaças em evolução que realmente existe, e não a um equivalente estático e imaginário.

Você poderia argumentar que as máquinas se tornaram mais inteligentes e agora são capazes de superar aos humanos em seu próprio jogo, como o algoritmo AlphaGo do Google, e teria razão.

No entanto, esses algoritmos têm apenas um foco muito limitado, e funcionam em um cenário com regras previsíveis. Na cibersegurança, os atacantes não jogam seguindo regras; e o que que é pior, podem mudar completamente o jogo sem qualquer aviso prévio.

Para combater um oponente com essa “inteligência geral”, uma solução de segurança precisaria ser construída em torno de uma inteligência artificial igualmente forte (ou geral), capaz de se adaptar a novos ambientes e desafios. A fraca aprendizagem automática hoje simplesmente não está à altura dessa tarefa.

Com uma solução de segurança puramente baseada em machine learning, só é preciso um exitoso ataque para que os equipamentos de sua empresa fiquem vulneráveis a um exército de cibercriminosos. As soluções da ESET, portanto, apresentam mais do que apenas machine learning. Usamos múltiplas tecnologias, que geralmente estão faltando nos produtos dos fabricantes da pós-verdade, para manter bem longe os bandidos, graças a nossas altas taxas de detecção e nossas baixas taxas de falsos positivos.

Esta é a série completa de textos relacionados sobre o assunto: