Conselhos para novos cientistas de dados

lindsay m pettingill em Airbnb Engineering & Data Science Seguir 12 de março · 7 min ler

Neste post, forneço conselhos para cientistas de dados juniores à medida que eles participam de dados e equipes de produtos no Airbnb.

Você é um novo cientista de dados – parabéns! Se você é um cientista de dados júnior em sua primeira função de dados, deve estar se perguntando: "Como posso executar com eficiência?" Este post vai se concentrar nessa execução. Ele é destinado principalmente a cientistas de dados inseridos em equipes de produtos, mas muitas das dicas podem ser generalizadas para qualquer novo contratado em uma função de tecnologia.

Neste post eu decomponho a execução efetiva nas seguintes 4 categorias:

  1. Priorização,
  2. Estimando quanto tempo as tarefas serão necessárias
  3. Como tirar suas dúvidas, e
  4. Comunicar e compartilhar seu trabalho.

Priorizando

Para trabalhar bem com os PMs, você precisa entender o que eles fazem. Dan Hill (ex-Airbnb) captura algumas observações aqui . Ele vê os PMs criando o processo que entrega bons produtos aos usuários finais . Eu não poderia concordar mais: os conjuntos de habilidades das PMs são variados, mas o processo geralmente é o denominador comum. Aproveite isso. PMs devem ser capazes de priorizar suas perguntas para você; seu gerente pode ajudar com isso também. No começo, preste muita atenção em como ambos priorizam: não há melhor maneira de aprender e entender o que é importante para eles – e o negócio! Você logo terá uma noção de quanto tempo as coisas levarão. Isso, juntamente com um senso de impacto, ajudará você a priorizar melhor.

No lado prático, você deve sempre ter um documento em andamento no qual você registra seu trabalho. Ter uma visão geral do que está no seu prato não apenas permite que você veja facilmente como você gasta seu tempo em vários tipos de trabalho (grandes apostas, pequenas apostas, trabalho ad-hoc, infraestrutura etc.), mas também facilita muito o desempenho das conversas. Se você acredita que grande parte do seu trabalho atende a objetivos ou projetos de curto prazo, você terá os dados para fundamentá-lo. Se este for o caso, certifique-se de comunicá-lo ao seu gerente como parte de seu trabalho é garantir que seu tempo seja bem gasto. Essa prática também fornece aos participantes e parceiros de negócios visibilidade do seu fluxo de trabalho.

Protip: Você deve sempre garantir que o seu parceiro de negócios sabe o que ela quer. Na prática, isso significa que sempre que alguém lhe pede dados, você deve se certificar de que eles articulam o que eles precisam. Muitas vezes, esse processo permite que você aprenda que o que alguém quer nem sempre aborda o que precisa. Um grande sinal de eficácia à medida que você progride no seu papel é a capacidade de identificar e responder às questões que influenciam as decisões.

Estimando quanto tempo as tarefas levarão

Como um novo cientista de dados, é crucial entender as diferenças entre:

  • Quanto tempo você quer que algo tome (quão desejável é a tarefa relativa às suas outras prioridades e interesses),
  • Quanto tempo deve demorar , (quão viável é devido a ferramentas, infra-estrutura, registro, etc), e
  • Quanto tempo leva para fazê-lo, dado o desejo e a realidade .

Tenho notado que as tarefas que levam os cientistas de dados mais novos a concluir normalmente não são aquelas que são as mais desafiadoras intelectualmente. Em vez disso, são aqueles que são os menos bem definidos ou aqueles em que as necessidades de infraestrutura não são totalmente articuladas ou compreendidas. Nessas situações, você precisa ter clareza e ter certeza de que sabe o que seus sistemas podem manipular – isso ajudará você e aqueles com quem você está trabalhando.

Começar:

  • Você entende o que está sendo solicitado analiticamente? Se não, certifique-se de fazer. Você não pode executar bem quando você não entende o que você deveria estar procurando ou para.
  • Depois de entender o que lhe é pedido, pergunte em seguida: os dados existem? Você entende o processo de geração de dados? Se a criação de log ou os dados não existirem ou estiverem com bugs, você não poderá ser muito útil. Se esse for o caso, peça que o registro seja adicionado e deixe claro que qualquer análise será adiada até que você tenha dados suficientes. Todos em sua equipe precisam entender o custo de dados perdidos – não apenas engenheiros.
  • Ao considerar as opções de análise, uma solução ad-hoc é boa ou você deve investir em algo mais sustentável? Você pode escrever uma função ou pacote para automatizar esse tipo de análise no futuro? Em startups em particular, você deve estar sempre pensando em maneiras de se dimensionar. Um conselho de ouro: aborde seu trabalho como se você tivesse que reproduzir ou replicar tudo o que faz.

PMs não são cientistas de dados e não é seu trabalho avaliar diferentes abordagens analíticas – é seu. Como mencionado acima, é seu trabalho fornecer uma estrutura para entregar um bom produto. Os melhores PMs com quem trabalhei têm frameworks claros e consistentes, principalmente quando se trata de produtos de dados: para eles, perfeitos e opacos são (sempre) os inimigos do bem. Se uma solução leva o dobro do tempo de outra, é bastante complicado de implementar, ou é uma caixa preta, você precisa ser muito claro e convincente sobre por que ela deveria ser preferida. E seu convencimento raramente deve incluir palavras como 'AUC' ou 'gradiente descendente'. Sempre se concentre no impacto nos negócios e caracterize os vários produtos / soluções de dados que você cria nesses termos!

Protip: Seja um host. É um privilégio fazer parte de uma equipe de produto interessada em tomar decisões baseadas em dados. Quanto mais dados forem informados à sua equipe, mais eficazes todos poderão ser. Seja um defensor da educação de dados e do ferramental para apoiar o autoatendimento de dados.

Como tirar suas dúvidas?

Na Airbnb, valorizamos a engenhosidade e a resolução de problemas, que é apenas uma das razões pelas quais gosto de trabalhar aqui. Mas como muitos de nós superestimamos essas habilidades, muitas vezes abordamos a obtenção de ajuda demonstrando nossa engenhosidade. Todos vocês sabem do que estou falando: em vez de dizer com o que você precisa de ajuda, você descreve detalhadamente o que está fazendo e pede um conselho muito específico: "Como faço para transformar os dados dessa maneira específica?", 'Como eu uso [essa ferramenta específica] para fazer [isso muito específico]'. Eu totalmente recebo o impulso aqui: você está demonstrando que está tentando e investiu em uma solução. Mas o que você pode ter perdido é que a solução que você já conhece é provavelmente uma de muitas. Quando você procura aconselhamento apenas em uma implementação específica, você estreitou o caminho para frente. Quando procurar ajuda (de qualquer pessoa, na verdade) sempre comece com o objetivo; Isso abre você para uma ampla gama de entradas.

Protip: Na tecnologia, você não se antecipa ao monopolizar informações. Quando você receber ajuda, faça uma prática de voltar e compartilhar a solução / correção com outras pessoas. O Stack Overflow é um bom lugar para isso, mas um repositório de conhecimento também é ótimo. Somos todos melhores quando a informação flui livremente e é amplamente acessível .

Comunicar e compartilhar seu trabalho

Se você trabalha em uma equipe de produtos incorporada, a comunicação é um dos aspectos mais importantes do seu trabalho. O conselho mais poderoso que tenho para os cientistas juniores de dados é a importância de se comunicar em diferentes altitudes. Para a maioria das comunicações com aqueles fora da organização de dados, não é o Apêndice que eles estão interessados; é o TL; DR ( Demasiado longo; não leia ). Na prática, isso geralmente significa que não é seu trabalho informar aos parceiros de negócios quanto trabalho você fez ou o quanto foi difícil ou quais foram as várias medidas de avaliação do modelo – guarde essas discussões para seu gerente e colegas. Se um PM fizer uma pergunta sobre seus usuários, responda da maneira mais simples possível. Não esconda sua resposta em um labirinto de detalhes técnicos – você perderá as pessoas assim! Se tiverem perguntas (o que sempre devem), elas seguirão.

Quanto mais você trabalha com alguém, mais você será capaz de antecipar seus acompanhamentos. Mas não assuma que eles estão tão interessados no caminho que você levou para chegar lá. Seus parceiros de negócios precisam entregar o produto e você precisa ajudá-los a chegar lá.

Finalmente, o elefante na sala em qualquer conversa sobre o compartilhamento de seu trabalho é um prazo . Você certamente encontrará um parceiro de negócios que peça algo sem especificar um prazo. Eles ficarão chateados quando não forem entregues quando precisarem. Certifique-se de que eles especifiquem e documentem esses prazos quando você se comprometer com o projeto. Se você está chegando perto de um prazo e sabe que vai sentir falta, comunique-o proativamente. Este é um sinal de maturidade, não de fracasso.

Protip: Certifique-se de obter feedback com antecedência e com frequência de seu gerente, outros cientistas de dados e parceiros de negócios em seu trabalho. Não subestime o valor de socializar seu trabalho. Isso é especialmente importante se suas descobertas forem contra-intuitivas ou forçar uma reconsideração dos pontos de dados existentes (ancoragem). Socializar seu trabalho o ajudará a aperfeiçoar, desenvolver e evangelizar; é muito melhor fazer perguntas difíceis antes de uma grande apresentação do que durante a apresentação. Por fim, se você não tiver certeza sobre os locais para socializar seu trabalho, peça ou crie-os.

Fechamento

Boa sorte, e fique atento para futuras postagens sobre o avanço em sua função. Enquanto isso, sinta-se à vontade para deixar qualquer dúvida / sugestão abaixo.

Texto original em inglês.