10 previsões para a aprendizagem profunda em 2019

Carlos E. Perez Blocked Desbloquear Seguir Seguindo 31 de dezembro de 2018 Foto por Sasha • Histórias sobre Unsplash

O ano de 2018 está terminando e chegou a hora de um novo conjunto de previsões do Deep Learning para 2019. Aqui estão minhas previsões anteriores e retrospectivas para 2017 e 2018.

Previsões de 2017 e retrospectiva . Isto tem previsões que abrangem aceleração de hardware, domínio da CNN, meta-aprendizagem, aprendizagem de reforço, aprendizagem adversária, aprendizagem não supervisionada, aprendizagem de transferência, DL como componentes, padrões de design e experimentos que superam a teoria.

2018 Previsões e Retrospectiva . Isso tem previsões que abrangem startups de hardware, meta-aprendizagem substituindo SGD, modelos gerativos, self-play, gap semântico, explicabilidade, dilúvio de pesquisa, ambientes de ensino, cognição conversacional e ética IA.

Retrospectivas de minhas previsões revelam que eu era muito otimista e tendia a superar a realidade eventual. Agora, com uma melhor compreensão do campo DL, os verdadeiros obstáculos ao progresso foram agora revelados. A comunidade, em geral, está em um estado de expectativas infladas. Isso, em retrospectiva, é devido à ignorância da complexidade subjacente da cognição geral. Agora temos que reduzir nossas expectativas e focar exclusivamente em áreas que se mostraram promissoras. Estas áreas promissoras farão progressos incrementais e não moonshots.

Agora que eu formulei um modelo de maturidade de capacidade mais preciso, posso fazer previsões melhores para onde a DL está indo. Aqui está o meu modelo de maturidade proposto. Eu não posso enfatizar o suficiente a importância deste modelo. A AGI é muito difícil de prever, mas você precisa se preocupar se os níveis mais altos forem alcançados de formas inesperadas. Aqui está um gráfico correspondente:

O progresso revolucionário acontece em etapas e o que estamos encontrando hoje é um grande obstáculo para alcançar o nível Intervencionista (também não tenho certeza se há outra camada antes do nível Intervencionista). Isso não significa que não possamos fazer nenhum progresso, e sim que existem muitos frutos que estão à mão no atual nível de maturidade (ou seja, o processo duplo) que está preparado para a exploração. O progresso do DL em 2019 será principalmente em torno desta compreensão pragmática de que a engenharia manual e a DL podem ser uma combinação frutífera.

Aqui estão as minhas previsões e, como nos anos anteriores, elas servem como um guia para acompanhar o progresso do DL.

1. Desaceleração na aceleração de hardware DL

O baixo pendurado de hardware para DL foi escolhido. Os arrays sistólicos deram ao mundo os enormes aumentos de velocidade em 2017. Não podemos esperar grandes aumentos no poder computacional em 2019. Os núcleos de Turing da NVidia são apenas um pouco mais rápidos que os núcleos Volta. O sistema TPUv3 do Google agora é resfriado por líquido para permitir maior densidade em comparação aos seus predecessores. Não espero grandes melhorias arquitetônicas em 2019, portanto não espere o tipo de ganhos massivos como nos anos anteriores.

No entanto, veremos arquiteturas mais recentes da GraphCore e da Gyrfalcon contornando os custos de energia das transferências de memória e suportando operações esparsas, no entanto, mudanças na formulação de DL serão necessárias para acomodar essas novas arquiteturas. Novas pesquisas de hardware precisam ser realizadas, inspiradas pela Nano-intencionalidade encontrada na biologia .

2. Aprendizagem não supervisionada foi resolvida, mas não é o que era esperado

A mentalidade para a aprendizagem não supervisionada está toda errada. O bolo em camadas de LeCun está todo errado, e as relações de diferentes tipos de aprendizado devem ser assim:

Por que a UL é a menos valorizada e a menos difícil? Isso porque não há meta e você pode simplesmente criar qualquer cluster que possa ou não funcionar. Em última análise, resume-se a como alguns dos níveis mais altos funcionam com base nos envoltórios da UL. As incorporações da UL são essencialmente dados que contêm um rico conjunto de prévias, e como essas prioridades são exploradas depende de processos upstream que possuem objetivos. O que foi descoberto pelo ELMO e pelo BERT é que podemos treinar o UL que prevê (ou gera) seus dados e isso serve como uma boa base para as tarefas do upstream. A UL é essencialmente Supervisionada Aprendendo com o rótulo já existente nos dados. Em suma, a UL foi resolvida, mas não da maneira que a maioria dos profissionais esperava. Se uma rede pode fazer boas previsões ou pode gerar bons fac-símiles dos dados originais, então isso é tudo para a UL.

Então, todos achavam que a solução da UL seria um grande avanço, porque poderíamos usar dados livres de rotulagem humana. Infelizmente, isso foi um grande problema, porque algo que vem de graça é muito fácil de extrair. Minha previsão para a UL em 2019 é que os pesquisadores aceitem esse novo ponto de vista e se concentrem em pesquisas mais valiosas (ou seja, aprendizado contínuo ou intervencionista).

3. O Meta-Learning será apenas para pesquisa

A compreensão do meta-aprendizado (ou seja, Aprender a aprender) parece ser tão nebulosa quanto a nossa compreensão da Aprendizagem não supervisionada. A meta-aprendizagem, como é praticada hoje, é mais uma aprendizagem de transferência (ou seja, aprendizagem interpolativa). Um tipo mais avançado de meta-aprendizagem é aquele que pode criar e melhorar seus próprios modelos. A meta-aprendizagem deve ser capaz de construir modelos de aprendizagem extrapolativos e inventivos. Estamos longe de alcançar essa capacidade.

Qualquer método de aprendizagem aplicável a muitos domínios é tecnicamente um algoritmo de meta-aprendizagem. Como exemplo, Gradient Descent, Algorithms Genéticos, Self-Play e Evolution são todos algoritmos de meta-aprendizagem. O objetivo das abordagens de meta-aprendizagem é desenvolver algoritmos que aprendam bem em muitos domínios.

Existem muito poucos algoritmos de meta-aprendizagem conhecidos, mas existe um algoritmo de meta-aprendizado que sabemos existir e ainda não entendemos. Nós não entendemos o algoritmo de meta-aprendizagem usado pelos seres humanos. Além disso, o Meta-learning é um problema muito genérico para entender como resolver de maneira universal. Como o aprendizado não supervisionado, provavelmente não há almoço grátis.

Eu suspeito que os métodos específicos descritos abaixo (isto é, modelos generativos, modelos híbridos e treinamento curricular) terão uma chance muito maior de alcançar resultados valiosos. Isso significa que os algoritmos de meta-aprendizagem que descobrimos são úteis apenas para tipos específicos de tarefas de aprendizado. Assim como aprender a aprender por gradiente descendente acelera a descida de gradiente apenas para uma tarefa específica, o aprendizado de metal só pode melhorar a aprendizagem nas tarefas que viu. Em resumo, o meta-aprendizado, na melhor das hipóteses, é interpolativo e não pode generalizar. É provável que não existam métodos universais de meta-aprendizagem, mas existe um conjunto de métodos de meta-aprendizagem que podem ser reunidos para produzir um currículo eficaz .

Em resumo, a pesquisa em Meta-Learning (com exceção da pesquisa de arquitetura neural ) continuará a ser uma curiosidade de pesquisa.

3. Uso de Modelagem Computacional Generativa na Ciência

Vamos desenvolver um melhor controle de nossos modelos gerativos . Existem três classes de modelos generativos que se mostraram eficazes: Autoencodificadores Variacionais, GANs e modelos baseados em Fluxo. Espero ver a maioria dos progressos nos modelos baseados em GAN e Fluxo e um progresso mínimo em VAE. Também esperarei ver aplicações disso na exploração científica que lidam com sistemas adaptativos complexos (ou seja, clima, simulações de fluidos, química e biologia).

O progresso nessa área terá profunda influência no progresso da ciência.

4. Uso de modelos híbridos na previsão

A Deep Learning continuou a mostrar sua força em fornecer previsões de sistemas de alta dimensão. No entanto, o DL ainda é incapaz de formular seus próprios modelos abstratos e isso continuará sendo um obstáculo fundamental para a explicabilidade e as previsões extrapolativas. Para compensar essas limitações, veremos soluções híbridas de processo duplo que incorporam modelos existentes em combinação com o aprendizado sem modelo.

Eu vejo mais trabalho em RL baseado em modelo em vez de RL sem modelo. Eu suspeito que a ineficiência da RL sem modelo pode ser mitigada usando modelos feitos à mão. Espero progressos nas Redes de gráficos relacionais e vejo resultados impressionantes quando esses gráficos são influenciados por modelos anteriores baseados em modelos. Também espero ver avanços nas capacidades de previsão fundindo algoritmos simbólicos existentes em conjunto com a inferência de DL.

A industrialização da DL virá não porque tenhamos progredido na transferência de aprendizado (como eu previa incorretamente em 2017), mas sim através da fusão de modelos criados manualmente e modelos treinados em DL.

5. Mais Métodos para Aprendizagem de Imitação

A imitação não requer raciocínio extrapolativo e, portanto, continuaremos a ver progressos consideráveis na imitação de todos os tipos de sistemas existentes. Para poder imitar o comportamento, uma máquina só precisa criar um modelo descritivo que espelhe o comportamento. Esse é um problema mais fácil do que a modelagem generativa, em que restrições generativas desconhecidas precisam ser descobertas. Os modelos geradores funcionam tão bem porque tudo o que fazem é imitar os dados e não inferir o modelo causal subjacente que gera os dados.

6. Mais Integração do DL para Exploração de Design

Vamos ver muita pesquisa em modelos generativos migrando para ferramentas de design existentes. Isso ocorrerá primeiro nos domínios visuais e avançará progressivamente para outras modalidades.

Na verdade, podemos até considerar o progresso feito pela AlphaGo e AlphaZero como exploração de design. Os jogadores de Go e Chess competitivos começaram a estudar as estratégias exploratórias introduzidas pelo jogo de RP da DeepMind para desenvolver novas estratégias e táticas que antes eram inexploradas.

A capacidade de força bruta e escalabilidade que está disponível para os métodos de DL serão máquinas de brainstorming que irão melhorar os projetos feitos por seres humanos. Muitos métodos de DL estão agora sendo integrados em produtos da Adobe e da AutoDesk. Style2Paints é um excelente exemplo de métodos de DL integrados com um aplicativo de desktop padrão.

O DL continuará sendo introduzido como componentes no fluxo de trabalho humano. As redes DL reduzem a carga cognitiva que uma pessoa requer para realizar tarefas em um fluxo de trabalho. O DL permite a criação de ferramentas mais especializadas no tratamento de detalhes de cognição mais confusos e confusos. Estas caem sob a necessidade de reduzir a sobrecarga de informação, melhorar a recuperação, extrair significado e agilizar a tomada de decisões.

7. Declínio da formação de ponta a ponta, mais ênfase na aprendizagem desenvolvimentista

O treinamento de ponta a ponta terá retornos decrescentes. Veremos redes treinadas em diferentes ambientes para aprender habilidades especializadas. Vamos ver um novo método para unir essas habilidades como blocos de construção para habilidades mais complexas. Espero ver avanços no Treinamento Curricular em 2019. Espero ver mais pesquisas inspiradas no desenvolvimento infantil humano . Redes de treinamento para realizar tarefas complexas envolverão modelagem complexa de recompensas e, portanto, precisamos de métodos aprimorados para lidar com esse problema.

8. Embutimentos mais ricos para o processamento de linguagem natural

A PNL avançou em 2018 principalmente devido aos avanços nas abordagens de Aprendizado Não Supervisionado que criam embeddings de palavras. Esta é uma continuação das abordagens Word2Vec e Glove. Os avanços de 2018 na PNL podem ser atribuídos aos embeddings neurais mais avançados (ELMO, BERT ). Esses embarques aprimoraram surpreendentemente muitas tarefas de PNL de upstream, simplesmente substituindo as integrações mais ricas. O trabalho em redes de gráficos relacionais pode melhorar ainda mais os recursos de DL NLP.

A rede de Transformadores também provou ser extremamente valiosa na PNL e eu espero sua adoção contínua em outras áreas. Eu suspeito que o domínio das redes ConvNet será desafiado pela rede Transformer. Minha intuição por trás disso é que a atenção é um mecanismo mais universal para impor invariância ou covariância do que o mecanismo fixo disponível para o ConvNets.

10. Adoção das abordagens da cibernética e do pensamento sistêmico

Uma deficiência importante da prática do Aprendizado Profundo é a falta de compreensão do quadro geral. Estamos em um momento em que ele precisa se inspirar em fontes mais não tradicionais. Acredito que essas fontes provenham de pesquisas mais antigas em cibernética e sua disciplina relacionada de pensamento sistêmico. Precisamos começar a pensar em como construir Infraestrutura Inteligente e Inteligência Inteligente robusta. Isso requer ir além da mentalidade de aprendizado de máquina existente com a qual muitos pesquisadores cresceram.

Michael Jordan, em seu ensaio “ Inteligência Artificial – A Revolução Ainda Não Aconteceu ”, observa que a cibernética de Norbert Wiener “passou a dominar a era atual”. A cibernética e o pensamento sistêmico nos ajudarão a desenvolver abordagens mais holísticas para projetar sistemas de IA. Implantações de AI bem-sucedidas serão vinculadas a como elas se alinham às necessidades de seus usuários humanos. Isso exigirá a exploração e formulação de uma abordagem holística que integre a variedade de partes que interagem.

Muitas das abordagens mais inovadoras da EAD podem ser encontradas em idéias mais antigas da Cibernética. Haverá um aumento na compreensão de que a IA autônoma requer a inclusão de uma perspectiva subjetiva em seus modelos do mundo. Codificação preditiva, arquitetura de dentro para fora , aprendizagem incorporada, inferência just-in-time , motivação intrínseca , curiosidade , modelos de self e representações acionáveis estão todos relacionados neste paradigma.

Texto original em inglês.