O que frustra os cientistas de dados em projetos de aprendizado de máquina?

Há uma explosão de interesse na ciência de dados hoje. Basta inserir o tag-line ' Powered-by-AI ', e qualquer coisa vende.

Mas é aí que os problemas começam.

Os campos de vendas de ciência de dados geralmente prometem a lua. Então, os clientes aumentam as expectativas e lançam seus projetos lunáticos. Em última análise, cabe aos cientistas de dados levar clientes para a lua ou deixá-los abandonados.

Um artigo anterior, " 4 maneiras de fracassar em um cientista de dados ", observou os principais erros que os candidatos cometem na busca pela ciência de dados. Aqui, entramos no mundo de fantasia das expectativas dos projetos de ciência de dados e descobrimos os principais equívocos mantidos pelos clientes.

Aqui vamos falar sobre os 8 mitos mais comuns que já vi em projetos de aprendizado de máquina, e por que eles incomodam os cientistas de dados. Se você está entrando em ciência de dados, ou já são mainstream, estas são granadas potenciais que podem ser lançadas em você. Por isso, seria útil saber como lidar com eles.

“Todos os modelos estão errados, mas alguns são úteis.” – George Box

Foto de Andre Hunter no Unsplash

1. “Queremos um modelo de IA … construa um para resolver este problema”

80% dos problemas da indústria em análise podem ser resolvidos com uma simples análise exploratória de dados. Se o aprendizado de máquina pode ser um exagero para isso, não vamos nem começar a explicar por que a IA é fútil aqui. Por que usar o canhão para matar uma mosca?

Sim, a análise avançada é legal. Toda empresa gosta de pontuar liderando o setor com esse investimento. E qual fornecedor não quer exibir um projeto de IA? Mas é preciso educar os clientes e invocar casos de uso corretos que justifiquem a artilharia pesada do arsenal da ML. Para todos os outros, convencer os clientes, mostrando valor de negócio usando os kits de ferramentas de análise de dados bacana.

“De longe, o maior perigo da Inteligência Artificial é que as pessoas concluem cedo demais que entendem isso.” – Eliezer Yudkowsky

2. "Tome esses dados .. e volte com insights transformacionais"

Muitas vezes, os clientes acham que sua responsabilidade termina com a entrega dos dados. Alguns até param com a definição do problema, mas vamos ver isso no ponto # 4! Eles pedem para os analistas pegarem os dados e voltarem com um baralho de insights de negócios que vão mudar a organização da noite para o dia.

Infelizmente, ao contrário da escrita criativa, não se pode pensar em recomendações de negócios acionáveis ??isoladamente. Ele exige uma iteração contínua e diálogos produtivos com os usuários corporativos sobre o que é pertinente e acionável para eles. Planeje o tempo de qualidade com as pessoas de negócios periodicamente durante todo o projeto.

“Se você não sabe como fazer a pergunta certa, não descobre nada. – W. Edward Deming

3. “Construa um modelo e poupe tempo ignorando análises desnecessárias

Muitos analistas ignoram a importância da análise de dados e análise exploratória, antes mesmo de abrirem a caixa de ferramentas do modelo. Diante disso, os clientes não podem ser responsabilizados quando esperam eliminar "análises desnecessárias" do caminho crítico e economizar tempo precioso do projeto.

A análise de dados é uma etapa obrigatória para o aprendizado de máquina e todas as outras formas superiores de análise. Sem ter uma ideia dos dados, descobrindo outliers ou padrões subjacentes, os modelos não fazem nada além de fotografar no escuro. Sempre garanta tempo para análise e clientes internos compartilhando descobertas interessantes.

Os alquimistas em busca de ouro descobriram muitas outras coisas de maior valor. – Arthur Schopenhauer

4. "Temos dados da semana passada, você pode prever os próximos 6 meses?"

Esta é uma implicância dos cientistas de dados. Os clientes reúnem poucas linhas de dados em planilhas e esperam que a IA faça a mágica da bola de cristal, no futuro. Às vezes, isso fica bastante estranho, quando os clientes confessam não ter nenhum dado e, em seguida, se perguntam genuinamente se o aprendizado de máquina pode preencher as lacunas.

A qualidade e o volume dos dados são primordiais e o “lixo no lixo” se aplica ainda mais às análises. Técnicas estatísticas úteis ajudam a lidar com problemas de dados e extraem mais quando você tem menos. Por exemplo, impute os pontos faltantes, pressione para gerar dados ou use modelos mais simples com volumes baixos. Mas isso exige que se diminuam as expectativas dos clientes quanto aos resultados, definindo alguns limites.

Desempenho de técnicas analíticas com volume de dados: Source Andrew Ng

5. “Você pode terminar o projeto de modelagem em 2 semanas?”

Em qualquer projeto crítico de negócios, os resultados são esperados a partir de ontem; mesmo quando o pontapé inicial é planejado hoje. Em uma corrida para derrubar cronogramas de projetos, uma baixa comum é a fase de engenharia do modelo. Com APIs de modelos e computação de GPU à disposição, os clientes se perguntam o que retarda os cientistas de dados.

Apesar dos avanços no Auto-ML , há um elemento manual imperdível no processo de modelagem. Os cientistas de dados devem examinar os resultados estatísticos, comparar modelos e verificar interpretações, muitas vezes através de iterações dolorosas. Isso não pode ser automatizado. Pelo menos, ainda não. É melhor esclarecer os clientes sobre esse atoleiro compartilhando exemplos.

A modelagem é parte da experimentação e parte da arte, portanto, os planos de projeto orientados por marcos nem sempre são realistas.

6. “Você pode substituir a variável Outcome e apenas apertar refresh?”

Depois que os cientistas de dados quebram o problema de modelar o comportamento dos negócios, novas solicitações surgem, como pequenas mudanças finais. A pergunta geralmente é para substituir variáveis ??de resultado e apenas executar novamente o modelo. Os clientes deixam de perceber que tais mudanças não se limitam a mover as metas, mas mudam o jogo do futebol para o basquete.

Embora o aprendizado de máquina seja altamente iterativo, o principal desafio é escolher os influenciadores certos para uma determinada variável de resultado e mapear seu relacionamento. Os clientes devem ser educados de antemão sobre como isso funciona e as alavancas que eles podem jogar livremente. Eles também devem ser advertidos sobre aqueles que precisam de um planejamento cuidadoso antecipadamente, e como o inferno vai se soltar se estes forem alterados.

7. “Podemos ter uma precisão de modelo de 100%?”

As pessoas geralmente ficam com taxas de erro. Bastante como uma busca cega de notas de teste, os clientes querem que a precisão esteja mais próxima de 100%. Isso se torna preocupante quando a precisão se torna o foco singular, superando todos os outros fatores. O que é divertido para construir um modelo altamente preciso que é muito complexo para ser feito ao vivo?

O modelo que ganhou o prêmio Netflix de um milhão de dólares com a mais alta precisão nunca entrou em operação, já que sua complexidade significava altos custos de engenharia. Considerando que um modelo com menor precisão foi adotado . Equilibre sempre a precisão com simplicidade, estabilidade e interpretabilidade comercial, fazendo as devidas compensações.

Engenharia de Modelo: Alcançar o equilíbrio fino e trade-off

8. “O modelo treinado pode ficar esperto para sempre?”

Depois de dedicar-se ao trabalho duro de construção e teste de modelos, os clientes se perguntam se a máquina aprendeu tudo o que ela precisa. Uma pergunta comum é se ela pode permanecer inteligente e se adaptar a mudanças futuras na dinâmica dos negócios.

Infelizmente, as máquinas não aprendem por toda a vida. Modelos precisam ser constantemente e pacientemente ensinados. E eles precisam de uma rápida sessão de reciclagem a cada poucas semanas ou meses, como aquele aluno em dificuldades na escola. Mais ainda, quando o contexto muda. É aí que a indústria de análises é hoje, embora esteja em rápida evolução. Então, por enquanto, faça o orçamento e o esforço para manutenção e atualizações do modelo.

Conclusão

Examinamos os 8 principais equívocos nos projetos, que também podem ser divididos em seis fases do ciclo de vida da modelagem ML, conforme mostrado abaixo.

Ciclo de vida do projeto de aprendizado de máquina

O que alimenta quase todos os equívocos acima é a falta de conscientização e as prioridades equivocadas dentro de um projeto. Os cientistas de dados que entendem o motivo dessas desconexões serão capazes de educar as partes interessadas. E eles serão capazes de abordar as causas profundas através de estimulação gentil e compensações amigáveis; aqueles que não comprometem os resultados finais.

Existem outros equívocos que incomodam você e não estão listados aqui? Deixe seus comentários abaixo para continuar a conversa.