Pensamentos sobre as duas culturas da modelagem estatística

Precisão supera a interpretabilidade e outras conclusões de “Modelagem Estatística: As Duas Culturas” de Leo Breiman

Will Koehrsen Segue 17 de jul · 16 min ler

No artigo: “Modelagem Estatística: As Duas Culturas” , Leo Breiman – desenvolvedor da floresta aleatória , bem como ensacamento ensacado e reforçado – descreve duas abordagens contrastantes para a modelagem em estatística:

  1. Modelagem de dados: escolha um modelo simples (linear) baseado na intuição sobre o mecanismo gerador de dados. A ênfase está na interpretabilidade do modelo e a validação, se feita, é feita por meio do ajuste de qualidade.
  2. Modelagem algorítmica: escolha o modelo com a maior precisão de validação preditiva sem considerar a explicabilidade do modelo.

Na época em que escrevemos, em 2001, Breiman estimou que 98% dos estatísticos estavam no grupo de modelagem de dados, enquanto 2% (incluindo ele mesmo) estavam na cultura de modelagem algorítmica. O documento é escrito como um chamado às armas para que os estatísticos parem de confiar apenas na modelagem de dados – o que leva a “conclusões enganosas” e “teoria irrelevante” – e adotam a modelagem algorítmica para resolver novos problemas do mundo real decorrentes de conjuntos de dados massivos. Breiman era um acadêmico, trabalhando como estatístico na Berkely por 21 anos, mas ele já trabalhou por 13 anos como consultor freelancer, dando a ele uma perspectiva bem formada de como as estatísticas podem ser úteis na indústria.

Breiman estava frustrado porque sabia que os modelos de dados não resolveriam os novos desafios da coleta de dados em grande escala e achava que as estatísticas acadêmicas estavam se tornando irrelevantes ao se recusar a adotar novas ferramentas: algoritmos complexos com alto desempenho preditivo e baixa explicabilidade. Embora o aprendizado de máquina e a estatística tenham mudado nos 18 anos desde o artigo (não sei se a divisão 98/2 ainda se mantém), vários pontos interessantes levantados ainda são relevantes para a prática de aprendizado de máquinas hoje, particularmente para aqueles que fazem a transição academia para a indústria. Entre os tópicos estão:

  1. Modelos com recursos diferentes geralmente produzem precisão preditiva semelhante.
  2. Há um trade-off na aprendizagem de máquina entre a interpretabilidade do modelo e o desempenho.
  3. Mais recursos podem melhorar o desempenho de modelos algorítmicos complexos.
  4. A ciência evolui de modelos simples para modelos complexos à medida que coletamos mais informações sobre o mundo.

A lição geral do artigo está alinhada com o que aprendi aplicando o aprendizado de máquina na indústria (no Cortex Building Intelligence ): concentre-se primeiro na precisão do modelo e, somente depois de criar um modelo de alto desempenho, pense em explicá-lo. Um modelo preciso e altamente complexo que não pode ser totalmente explicado é mais valioso do que um modelo simples e linear, sem precisão preditiva que entendemos completamente.

A seguir, alguns dos meus pensamentos sobre o artigo de Breiman. Tenha em mente que estes são baseados em muito menos experiência – 1 ano em um ambiente acadêmico (2018) e pouco mais de 1 ano na indústria (2018-presente) – do que Breiman estava escrevendo. Eu recomendo ler o artigo (e as críticas que ele inclui) para formar suas próprias opiniões. Sinta-se à vontade para adicionar comentários ou experiências sobre o artigo ou tópicos associados em aprendizado de máquina para este artigo. Embora o aprendizado de máquina pareça estar se movendo incrivelmente rápido, ainda há informações valiosas para aprender com os jornais e livros mais antigos , especialmente aqueles escritos por uma figura como Breiman, que desempenhou um papel fundamental na formação do campo.