A transparência dos algoritmos de machine learning é uma faca de dois gumes

O Regulamento Geral de Protecção de Dados da União Europeia (GDPR), que entrará em vigor em 25 de maio de 2018, redefine a forma como as empresas devem lidar com a coleta e o uso dos dados pessoais dos cidadãos da UE.

Os debates em torno ao GDPR estão focados principalmente no alcance global desta legislação, as multas draconianas que introduz, ou suas regras mais estritas para o "consentimento informado" como condição para o processamento de dados pessoais.

No entanto, um desafio que o GDPR traz às empresas é muitas vezes ignorado: o direito dos cidadãos à explicação.

Deixando de lado os detalhes legais, o GDPR exige que os cidadãos tenham o direito de receber informações suficientes sobre os sistemas automatizados utilizados para processar seus dados pessoais, a fim de poder tomar uma decisão informada quanto à exclusão desse processamento de dados. (Uma análise legal compreensível para os que não são advogados, pode ser encontrada aqui.)

O direito à explicação foi ignorado durante muito tempo. Além da baixa conscientização sobre o próprio direito, não é amplamente entendido que esta proteção de privacidade recentemente introduzida traz um risco comercial significativo para as empresas que processam os dados dos cidadãos.

Sim, outros direitos dos cidadãos introduzidos ou expandidos pelo GDPR, como o direito de se opor ao perfil, o direito de obter uma cópia dos dados pessoais coletados, ou o direito ao esquecimento, podem ser caros de cumprir.

No entanto, muitas empresas estão se tornando incapazes de fornecer uma explicação dos resultados de seu processamento de dados pessoais. E o que é pior, muitas vezes simplesmente não conseguem descobrir como cumprir esta obrigação imposta pelo GDPR.

O enfoque "black-box"

O problema é que os sistemas que processam os dados pessoais dos cidadãos geralmente dependem de machine learning. E, ao contrário dos algoritmos "if-then" padrão, os modelos de machine learning são uma espécie de "caixa preta": ninguém sabe exatamente o que acontece dentro e o raciocínio exato por trás do resultado.

Este é especialmente o caso com os métodos que dependem de redes neurais. Os métodos de machine learning baseados em árvore de decisão permitem, em teoria, determinar o caminho de aprendizagem. No entanto, existem severas restrições que dificultam qualquer explicação.

Vejamos um exemplo extremamente simplificado. Imagine que um banco possui um sistema de machine learning para determinar a capacidade de crédito daqueles que se candidatam a um empréstimo. Com base em dados sobre empréstimos anteriores, incluindo o resultado, rotulados como "bom" ou "ruim", o sistema aprende sozinho a prever se um novo aplicativo acabaria por ser uma perspectiva "boa" ou "ruim" para um empréstimo.

O raciocínio para a predição, com base no qual uma determinação é feita sobre se o candidato será ou não capaz de pagar sua própria casa, por exemplo, reside na forma como uma rede complexa de milhares de neurônios simulados processa os dados.

O processo de aprendizagem consiste em bilhões de passos e é difícil rastrear. Não só tecnicamente, ou seja, devido a restrições tecnológicas, mas também devido a limitações fundamentais das teorias matemáticas subjacentes, ninguém pode realmente dizer exatamente por que uma determinada amostra de dados foi rotulada como "ruim".

Entre a cruz e a espada

Machine learning tornou-se um método bastante escolhido para o processamento de grandes conjuntos de dados e a triagem de amostras em grupos. Por este motivo, o direito à explicação representa um desafio fundamental - e um risco de não cumprimento - para todos aqueles que lidam com pilhas de dados pessoais dos cidadãos europeus.

A menos que as empresas que processam os dados pessoais dos cidadãos compreendam completamente o raciocínio das decisões tomadas com base em seus modelos de machine learning, se encontrarão em um lugar difícil.

Eles devem impedir que seus clientes tenham que refazer o processamento automatizado de seus dados pessoais (para economizar custos e manter o negócio em funcionamento), preservando a ilusão de que a empresa está realmente respeitando o direito do cliente de ter uma explicação padrão, além do direito de ter uma revisão humana em caso de haver um resultado impugnado (para que a empresa possa evitar as enormes multas impostas pelo GDPR por incumprimento).

A pesquisa básica é necessária

Para poder explicar o raciocínio por trás de seus processos automatizados de tomada de decisão - e assim conceder o direito de explicação aos seus clientes - as empresas devem aguardar até conseguirem melhorias radicais na compreensão de como as máquinas aprendem.

Basicamente, os processos de machine learning devem ser transparentes, e se não verdadeiramente transparentes, pelo menos muito menos black-box, para que as empresas que se enquadram no GDPR possam cumprir o regulamento.

No entanto, a transparência de machine learning é uma besta complicada que tem a imprevisibilidade (a não transparência, se quiser) enraizada no fundo das teorias matemáticas fundamentais nas quais se baseia. Por esta razão, a solução do problema do direito à explicação requer melhorar os fundamentos teóricos de machine learning.

Os cientistas de machine learning já estão mudando seu foco dessa maneira. No entanto, pode demorar anos antes de vermos os resultados aplicáveis ao GDPR.

Transparência: uma necessidade ou uma ameaça?

Ao contrário dos comerciantes e outros que processam dados pessoais em massa e devem estar em conformidade com os regulamentos de privacidade, as empresas de cibersegurança não aceitam esta mudança na pesquisa do machine learning.

Mais recursos alocados para a compreensão dos modelos (ou seja, por uma questão de transparência) significam menos recursos destinados a tornar os modelos mais precisos e eficazes.

Para nós, caçadores de malware, ter modelos de machine learning precisos e eficazes é primordial, enquanto a transparência de nossos modelos de machine learning é a última coisa que precisamos. Afinal, não queremos que os cibercriminosos aperfeiçoem seu código malicioso com sucesso, passando por nossas proteções, não é mesmo?

No entanto, devemos estar preparados para que nossos adversários aumentem seu jogo com base em uma melhor compreensão de como funcionam os nossos modelos de machine learning.

Sem dúvidas, é importante melhorar nossos modelos de machine learning e torná-los mais sofisticados e, portanto, mais difíceis de burlar. No entanto, a medida mais importante a este respeito é ter mais camadas de proteção.

O advento das ferramentas para desconstruir modelos de machine learning mostra claramente quão frágil podem ser as proteções que dependem exclusivamente destes modelos.

Na minha opinião, as empresas que realizam testes de produtos deveriam desenvolver métodos mais sofisticados para testar a resiliência das soluções de segurança contra métodos destinados a burlar mecanismos de detecção de produtos baseados no conhecimento de como esses mecanismos funcionam.

Esses testes avançados são necessários para distinguir as soluções que são confiáveis e difíceis de burlar daquelas que funcionam somente em condições ideais.

Juraj Jánošík
Automated Threat Detection and Artificial Intelligence Team Lead da ESET.