Conheça seu inimigo

As implicações fascinantes de exemplos contraditórios

Oscar Knagg Blocked Desbloquear Seguir Seguindo 1 de janeiro Foto de Naomi Tamar em Unsplash

Exemplos adversários são insumos para modelos ML que são especialmente criados para fazer com que o modelo cometa um erro – ilusões de ótica para computadores. Como mostrado abaixo, exemplos contraditórios são tipicamente criados pela adição de uma pequena quantidade de ruído cuidadosamente calculado a uma imagem natural. O fato de que esse tipo de ataque pode enganar modelos de reconhecimento de imagens de última geração, embora muitas vezes seja imperceptível aos seres humanos, demonstra uma diferença fundamental na forma como os seres humanos e as redes de convoluções profundas processam a informação visual. Isso não apenas levanta questões teóricas interessantes, mas também questiona a prontidão das redes neurais para aplicativos críticos para a segurança.

Exemplo adversário de Goodfellow et al . Neste, uma quantidade imperceptível de ruído é adicionada à primeira imagem para enganar o GoogLeNet – o modelo de última geração da ImageNet em 2014.

Exemplos adversários são um fenômeno de aprendizado de máquina particularmente fascinante, porque há tantas questões abertas em torno deles. Por que eles enganam redes profundas e não humanos? É possível proteger completamente as redes neurais contra esses ataques? Até hoje, ninguém conseguiu produzir um modelo de classificação de dígitos MNIST que seja completamente robusto para exemplos contraditórios, embora o MNIST seja considerado um problema de brinquedo pela maioria dos profissionais de aprendizado de máquina.

Este post abordará o seguinte:

  1. Como criar um exemplo contraditório
  2. Definindo e categorizando exemplos contraditórios e métodos de ataque
  3. Exemplos adversários transferem para o mundo físico
  4. Exemplos de Adversarial transferem entre modelos
  5. Exemplos adversários transferem para os humanos (tipo)