4 Deve ter habilidades que todo cientista de dados deve aprender

Queríamos acompanhar nossa peça anterior sobre como crescer como cientista de dados com algumas outras habilidades que os cientistas sênior de dados deveriam ter. Nossa esperança é superar a lacuna entre gerentes de negócios e cientistas de dados técnicos ao criar objetivos claros que os cientistas de dados superiores podem apontar. Ambas as entidades têm que enfrentar problemas muito diferentes. Ambos se beneficiam quando estão na mesma página. É por isso que o post anterior se concentrou tanto na comunicação. Parece simples, mas a diferença entre técnicas e negócios continua a crescer à medida que as novas tecnologias continuam empilhadas em cada ano. Assim, achamos importante que os gerentes e cientistas de dados tenham um caminho claro de expectativas.

Tanto o conhecimento empresarial quanto o de TI são muito especializados. No entanto, devido a essa especialização de habilidades, a maioria das empresas vê uma lacuna entre as duas especializações. Nosso papel é ajudar a preenchê-lo!

Achamos que isso é benéfico quando os cientistas de dados estão começando sua jornada que se concentram fortemente nos aspectos técnicos. Isso significa programação, consultas, limpeza de dados, etc. No entanto, à medida que os cientistas de dados crescem. Eles precisam se concentrar mais nas decisões de design e comunicação com o gerenciamento. Isso irá multiplicar o impacto do conhecimento mais experiente dos cientistas de dados. Em vez de ficar preso no dia a dia da codificação. Eles podem tomar decisões de nível superior e ajudar os cientistas de dados mais jovens se ficarem presos. Os cientistas de dados mais experientes se beneficiam tanto a si mesmos como a suas empresas mais quando utilizam sua experiência para ajudar a tomar decisões de design que simplificam sistemas complexos, otimizam os fluxos de dados e ajudam a tomar decisões sobre quais projetos são mais pertinentes.

Ser capaz de simplificar o complexo

Os cientistas de dados tendem a querer usar todas as técnicas e algoritmos que conhecem em todos os problemas e em todas as soluções. Por sua vez, isso cria sistemas complexos que são difíceis de manter.

A ciência dos dados exige modelos complexos e abstratos, bem como inúmeras tecnologias complexas (do Hadoop ao Tensorflow ). Com toda a complexidade que circunda o campo, é tentador desenvolver sistemas e algoritmos que são, por sua vez, complexos. Há a tentação de envolver 4 ou 5 tecnologias diferentes e utilizar cada novo algoritmo ou estrutura quente. No entanto, como a maioria dos outros campos envolvidos na engenharia. Reduzir a complexidade é muitas vezes melhor por vários motivos.

Se, se John von Neumann , Erwin Schrödinger e Albert Einstein nos ajudem a entender as complexidades de seus campos de matemática e física, os cientistas de dados não conseguem esconder atrás da complexidade. , Erwin Schrödinger e Albert Einstein podem nos ajudar a entender as complexidades de seus campos de matemática e física, então os cientistas de dados não conseguem esconder atrás da complexidade.

O papel de um engenheiro é simplificar uma tarefa. Se você já construiu ou viu uma máquina Rube Goldberg , você entenderá a idéia de engenharia de uma tarefa simples. Alguns algoritmos e sistemas de dados de cientistas de dados pareceriam mais como uma armadilha de mouse louca mantida em conjunto por fita adesiva e goma em vez de uma solução elegante mas eficaz. Fazer sistemas mais simples significa que os sistemas serão mais fáceis de manter ao longo do tempo, bem como fornecer aos futuros cientistas de dados a capacidade de adicionar e remover módulos conforme necessário. O próximo cientista de dados que assumir a sua posição agradecerá se você criar um quadro simples. Por outro lado, se você usar 3 idiomas diferentes, 2 fontes de dados, 10 algoritmos e não deixar documentação, então, apenas saiba que o futuro engenheiro está amaldiçoando seu nome em voz baixa.

Algoritmos e sistemas simples também permitem adições e subtrações mais fáceis. Assim, à medida que as mudanças e atualizações de tecnologia são necessárias ou um módulo precisa ser retirado. Um cientista de dados futuro pobre não está preso a jogar um jogo de Jenga com seu código. Se eu remover este bloco de código, tudo irá desmoronar (você já ouviu falar de dívida técnica ?)

Conhecer como dados de malha sem chaves primárias

Um dos grandes valores que os especialistas de dados sólidos devem fornecer está vinculando conjuntos de dados que podem não ter uma conexão primária ou óbvia. Os dados podem representar as interações diárias de uma pessoa ou empresa. Ter a capacidade de encontrar padrões estatísticos nestes dados é o que permite aos cientistas de dados a capacidade de ajudar os tomadores de decisão a fazer escolhas sábias. No entanto, os dados que você deseja encaixar não estão sempre no mesmo sistema ou na mesma granularidade.

Aqueles que trabalharam com dados saberão que nem sempre estão integrados bem em um banco de dados. Os dados financeiros geralmente são mantidos separados dos dados do Gerenciamento de Serviços de TI e fontes de dados externas podem não ter o mesmo nível de agregação. Isso é um problema porque, para encontrar valor em dados, às vezes requer dados de outros departamentos e sistemas.

A mestra de dados requer peças de construção no mesmo nível de granularidade. Uma maneira de pensar nisso é ter uma grande peça de quebra-cabeças sendo juntada por outra peça grande criada por muitos pequenos pedaços de dados de quebra-cabeças.

Por exemplo, e se você receber provas médicas, cartões de crédito e taxas criminais de bairros e quiser descobrir como esses fatores sócio-econômicos afetam o paciente ?. Alguns conjuntos de dados podem estar em um nível de pessoa por pessoa, enquanto os outros podem estar em um nível de rua ou cidade sem nenhum método claro para conectar os conjuntos de dados. Qual é a melhor maneira de prosseguir? Isso se torna um problema de design que um, deve ser gravado e dois devem ser pensados.

Cada situação é diferente, pois existem várias maneiras de conter dados. Pode ser baseado na região, traços, hábitos de consumo, etc. É por isso que a experiência é importante. Um cientista de dados experiente terá a intuição de como os dados podem ser unidos. Principalmente porque eles já experimentaram centenas de métodos que não funcionam. Muitas vezes, quanto mais próximo você pode combinar ambos os conjuntos de dados para pessoa por pessoa, melhor. Portanto, se a região ou a cidade for o nível mais baixo (o nível mais baixo refere-se à granularidade dos dados, como nível de pessoa, nível de casa, nível de rua, nível de cidade, nível de estado ou muitos outros agrupamentos) de conexão, então seria uma ótimo lugar para começar.

Ser capaz de priorizar projetos

Como cientista de dados, você precisa saber como explicar o ROI de projetos que podem não se revelar. Esta é apenas uma boa comunicação direta (nossa equipe nunca vai parar de falar sobre comunicação). Isto é sobre ser capaz de articular o valor, bem como priorizar os objetivos de longo prazo versus curto prazo (novamente, mais fácil dizer do que o feito).

As equipes sempre terão mais projetos e solicitações de projetos do que podem lidar. Os membros da equipe mais experientes precisam assumir a liderança e ajudar seus gerentes a decidir quais projetos realmente valem a pena assumir. Existe um bom equilíbrio entre projetos rápidos que talvez não tenham o ROI mais alto, mas que tenham boas chances de projetos de sucesso e de longo prazo que sejam mais prováveis ??de falhar, mas também fornecem um ROI grande.

Neste caso, é bom ter uma matriz de matriz de decisão para ajudar a simplificar o processo.

Uma das matrizes de decisão clássicas para projetos é uma matriz de 2 por 2 que é importância e urgência. Esta matriz pode ser encontrada na maioria dos cursos de negócios na faculdade e é realmente simples. É por isso que é ótimo!

Trabalhei em empresas com pessoas realmente inteligentes. No entanto, cada projeto foi tratado como uma prioridade e, se você não ouviu o ditado, diremos aqui.

Se tudo é uma prioridade, então nada é.

Escolher os projetos certos exige fazer chamadas. Nem tudo é uma prioridade.

Muitas outras empresas têm esse problema. É por isso que é importante que os membros experimentados das equipas de ciência de dados sejam para articular claramente quais projetos realmente devem ser feitos agora, e depois. Assim, usar a matriz simples fará isso.

(Como dissemos na nossa última publicação, ser conciso é importante. Usar a matriz para ajudar a especificar o ROI ajudará).

Quando há uma comunicação concisa e direta, os projetos continuam a avançar e a confiança é construída.

Ser capaz de desenvolver sistemas robustos e ótimos

Criar uma algoritmo ou modelo que opera em um ambiente controlado é uma coisa. Integrar um modelo robusto em um sistema que é ao vivo e lida com enormes quantidades de dados é uma outra coisa. Dependendo da empresa, às vezes o cientista de dados apenas terá que desenvolver o próprio algoritmo. Então, um desenvolvedor ou engenheiro de aprendizado de máquina será responsável por colocá-lo em produção.

No entanto, nem sempre é esse o caso. Pequenas empresas e equipes menores podem ter a equipe de ciência dos dados colocar o código em produção. Isso significa que o algoritmo precisa ser capaz de gerenciar o tráfego de dados a uma velocidade razoável. Se o seu algoritmo demorar 3 horas para ser executado e precisa ser acessado ao vivo. Não está entrando em produção. Assim, é necessário um bom design e otimização do sistema.

À medida que os dados crescem, e cada vez mais pessoas interagem com um sistema. É importante que o seu modelo continue.

A ciência dos dados é um campo complexo que requer uma compreensão de dados, estatísticas, programação e assuntos. Para crescer, os cientistas de dados precisam ser capazes de simplificar e destilar essas complexidades em algoritmos. Eles precisam poder se concentrar mais em tomar decisões de design. Isso ajuda a maximizar seu conhecimento e experiência que eles têm.

Resumo

Especialistas em dados sênior proporcionam o maior impacto para ambos e para suas empresas quando ultrapassam suas habilidades técnicas. O valor que eles trazem à mesa é sua experiência, pode ajudar a orientar os desenvolvedores mais novos a tomar melhores decisões de design e ajudar os gerentes a tomar melhores decisões sobre quais projetos terão o melhor ROI. Por sua vez, isso amplia o impacto de seu envolvimento na equipe.

Call To Action

Você é um executivo ou diretor que precisa de ajuda para melhorar sua comunicação entre sua equipe de ciência de dados e seus empresários? Queremos ajudar! Nossa equipe é especializada em seminários para ajudar a melhorar a comunicação e a produção de suas equipes dirigidas a dados. Contate-nos aqui hoje!

Interessado em ler mais sobre ser um melhor cientista de dados?

Como crescer como cientista de dados

Impulsionando Bagging e Construindo Algoritmos Melhor

Como sobreviver a política corporativa como cientista de dados

8 Bibliotecas Top Python para Aprendizado de Máquinas

O que é uma árvore de decisão

Texto original em inglês.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

4 Deve ter habilidades que todo cientista de dados deve aprender

Queríamos acompanhar nossa peça anterior sobre como crescer como cientista de dados com algumas outras habilidades que os cientistas sênior de dados deveriam ter. Nossa esperança é superar a lacuna entre gerentes de negócios e cientistas de dados técnicos ao criar objetivos claros que os cientistas de dados superiores podem apontar. Ambas as entidades têm que enfrentar problemas muito diferentes. Ambos se beneficiam quando estão na mesma página. É por isso que o post anterior se concentrou tanto na comunicação. Parece simples, mas a diferença entre técnicas e negócios continua a crescer à medida que as novas tecnologias continuam empilhadas em cada ano. Assim, achamos importante que os gerentes e cientistas de dados tenham um caminho claro de expectativas.

Tanto o conhecimento empresarial quanto o de TI são muito especializados. No entanto, devido a essa especialização de habilidades, a maioria das empresas vê uma lacuna entre as duas especializações. Nosso papel é ajudar a preenchê-lo!

Achamos que isso é benéfico quando os cientistas de dados estão começando sua jornada que se concentram fortemente nos aspectos técnicos. Isso significa programação, consultas, limpeza de dados, etc. No entanto, à medida que os cientistas de dados crescem. Eles precisam se concentrar mais nas decisões de design e comunicação com o gerenciamento. Isso irá multiplicar o impacto do conhecimento mais experiente dos cientistas de dados. Em vez de ficar preso no dia a dia da codificação. Eles podem tomar decisões de nível superior e ajudar os cientistas de dados mais jovens se ficarem presos. Os cientistas de dados mais experientes se beneficiam tanto a si mesmos como a suas empresas mais quando utilizam sua experiência para ajudar a tomar decisões de design que simplificam sistemas complexos, otimizam os fluxos de dados e ajudam a tomar decisões sobre quais projetos são mais pertinentes.

Ser capaz de simplificar o complexo

Os cientistas de dados tendem a querer usar todas as técnicas e algoritmos que conhecem em todos os problemas e em todas as soluções. Por sua vez, isso cria sistemas complexos que são difíceis de manter.

A ciência dos dados exige modelos complexos e abstratos, bem como inúmeras tecnologias complexas (do Hadoop ao Tensorflow ). Com toda a complexidade que circunda o campo, é tentador desenvolver sistemas e algoritmos que são, por sua vez, complexos. Há a tentação de envolver 4 ou 5 tecnologias diferentes e utilizar cada novo algoritmo ou estrutura quente. No entanto, como a maioria dos outros campos envolvidos na engenharia. Reduzir a complexidade é muitas vezes melhor por vários motivos.

Se, se John von Neumann , Erwin Schrödinger e Albert Einstein nos ajudem a entender as complexidades de seus campos de matemática e física, os cientistas de dados não conseguem esconder atrás da complexidade. , Erwin Schrödinger e Albert Einstein podem nos ajudar a entender as complexidades de seus campos de matemática e física, então os cientistas de dados não conseguem esconder atrás da complexidade.

O papel de um engenheiro é simplificar uma tarefa. Se você já construiu ou viu uma máquina Rube Goldberg , você entenderá a idéia de engenharia de uma tarefa simples. Alguns algoritmos e sistemas de dados de cientistas de dados pareceriam mais como uma armadilha de mouse louca mantida em conjunto por fita adesiva e goma em vez de uma solução elegante mas eficaz. Fazer sistemas mais simples significa que os sistemas serão mais fáceis de manter ao longo do tempo, bem como fornecer aos futuros cientistas de dados a capacidade de adicionar e remover módulos conforme necessário. O próximo cientista de dados que assumir a sua posição agradecerá se você criar um quadro simples. Por outro lado, se você usar 3 idiomas diferentes, 2 fontes de dados, 10 algoritmos e não deixar documentação, então, apenas saiba que o futuro engenheiro está amaldiçoando seu nome em voz baixa.

Algoritmos e sistemas simples também permitem adições e subtrações mais fáceis. Assim, à medida que as mudanças e atualizações de tecnologia são necessárias ou um módulo precisa ser retirado. Um cientista de dados futuro pobre não está preso a jogar um jogo de Jenga com seu código. Se eu remover este bloco de código, tudo irá desmoronar (você já ouviu falar de dívida técnica ?)

Conhecer como dados de malha sem chaves primárias

Um dos grandes valores que os especialistas de dados sólidos devem fornecer está vinculando conjuntos de dados que podem não ter uma conexão primária ou óbvia. Os dados podem representar as interações diárias de uma pessoa ou empresa. Ter a capacidade de encontrar padrões estatísticos nestes dados é o que permite aos cientistas de dados a capacidade de ajudar os tomadores de decisão a fazer escolhas sábias. No entanto, os dados que você deseja encaixar não estão sempre no mesmo sistema ou na mesma granularidade.

Aqueles que trabalharam com dados saberão que nem sempre estão integrados bem em um banco de dados. Os dados financeiros geralmente são mantidos separados dos dados do Gerenciamento de Serviços de TI e fontes de dados externas podem não ter o mesmo nível de agregação. Isso é um problema porque, para encontrar valor em dados, às vezes requer dados de outros departamentos e sistemas.

A mestra de dados requer peças de construção no mesmo nível de granularidade. Uma maneira de pensar nisso é ter uma grande peça de quebra-cabeças sendo juntada por outra peça grande criada por muitos pequenos pedaços de dados de quebra-cabeças.

Por exemplo, e se você receber provas médicas, cartões de crédito e taxas criminais de bairros e quiser descobrir como esses fatores sócio-econômicos afetam o paciente ?. Alguns conjuntos de dados podem estar em um nível de pessoa por pessoa, enquanto os outros podem estar em um nível de rua ou cidade sem nenhum método claro para conectar os conjuntos de dados. Qual é a melhor maneira de prosseguir? Isso se torna um problema de design que um, deve ser gravado e dois devem ser pensados.

Cada situação é diferente, pois existem várias maneiras de conter dados. Pode ser baseado na região, traços, hábitos de consumo, etc. É por isso que a experiência é importante. Um cientista de dados experiente terá a intuição de como os dados podem ser unidos. Principalmente porque eles já experimentaram centenas de métodos que não funcionam. Muitas vezes, quanto mais próximo você pode combinar ambos os conjuntos de dados para pessoa por pessoa, melhor. Portanto, se a região ou a cidade for o nível mais baixo (o nível mais baixo refere-se à granularidade dos dados, como nível de pessoa, nível de casa, nível de rua, nível de cidade, nível de estado ou muitos outros agrupamentos) de conexão, então seria uma ótimo lugar para começar.

Ser capaz de priorizar projetos

Como cientista de dados, você precisa saber como explicar o ROI de projetos que podem não se revelar. Esta é apenas uma boa comunicação direta (nossa equipe nunca vai parar de falar sobre comunicação). Isto é sobre ser capaz de articular o valor, bem como priorizar os objetivos de longo prazo versus curto prazo (novamente, mais fácil dizer do que o feito).

As equipes sempre terão mais projetos e solicitações de projetos do que podem lidar. Os membros da equipe mais experientes precisam assumir a liderança e ajudar seus gerentes a decidir quais projetos realmente valem a pena assumir. Existe um bom equilíbrio entre projetos rápidos que talvez não tenham o ROI mais alto, mas que tenham boas chances de projetos de sucesso e de longo prazo que sejam mais prováveis ??de falhar, mas também fornecem um ROI grande.

Neste caso, é bom ter uma matriz de matriz de decisão para ajudar a simplificar o processo.

Uma das matrizes de decisão clássicas para projetos é uma matriz de 2 por 2 que é importância e urgência. Esta matriz pode ser encontrada na maioria dos cursos de negócios na faculdade e é realmente simples. É por isso que é ótimo!

Trabalhei em empresas com pessoas realmente inteligentes. No entanto, cada projeto foi tratado como uma prioridade e, se você não ouviu o ditado, diremos aqui.

Se tudo é uma prioridade, então nada é.

Escolher os projetos certos exige fazer chamadas. Nem tudo é uma prioridade.

Muitas outras empresas têm esse problema. É por isso que é importante que os membros experimentados das equipas de ciência de dados sejam para articular claramente quais projetos realmente devem ser feitos agora, e depois. Assim, usar a matriz simples fará isso.

(Como dissemos na nossa última publicação, ser conciso é importante. Usar a matriz para ajudar a especificar o ROI ajudará).

Quando há uma comunicação concisa e direta, os projetos continuam a avançar e a confiança é construída.

Ser capaz de desenvolver sistemas robustos e ótimos

Criar uma algoritmo ou modelo que opera em um ambiente controlado é uma coisa. Integrar um modelo robusto em um sistema que é ao vivo e lida com enormes quantidades de dados é uma outra coisa. Dependendo da empresa, às vezes o cientista de dados apenas terá que desenvolver o próprio algoritmo. Então, um desenvolvedor ou engenheiro de aprendizado de máquina será responsável por colocá-lo em produção.

No entanto, nem sempre é esse o caso. Pequenas empresas e equipes menores podem ter a equipe de ciência dos dados colocar o código em produção. Isso significa que o algoritmo precisa ser capaz de gerenciar o tráfego de dados a uma velocidade razoável. Se o seu algoritmo demorar 3 horas para ser executado e precisa ser acessado ao vivo. Não está entrando em produção. Assim, é necessário um bom design e otimização do sistema.

À medida que os dados crescem, e cada vez mais pessoas interagem com um sistema. É importante que o seu modelo continue.

A ciência dos dados é um campo complexo que requer uma compreensão de dados, estatísticas, programação e assuntos. Para crescer, os cientistas de dados precisam ser capazes de simplificar e destilar essas complexidades em algoritmos. Eles precisam poder se concentrar mais em tomar decisões de design. Isso ajuda a maximizar seu conhecimento e experiência que eles têm.

Resumo

Especialistas em dados sênior proporcionam o maior impacto para ambos e para suas empresas quando ultrapassam suas habilidades técnicas. O valor que eles trazem à mesa é sua experiência, pode ajudar a orientar os desenvolvedores mais novos a tomar melhores decisões de design e ajudar os gerentes a tomar melhores decisões sobre quais projetos terão o melhor ROI. Por sua vez, isso amplia o impacto de seu envolvimento na equipe.

Call To Action

Você é um executivo ou diretor que precisa de ajuda para melhorar sua comunicação entre sua equipe de ciência de dados e seus empresários? Queremos ajudar! Nossa equipe é especializada em seminários para ajudar a melhorar a comunicação e a produção de suas equipes dirigidas a dados. Contate-nos aqui hoje!

Interessado em ler mais sobre ser um melhor cientista de dados?

Como crescer como cientista de dados

Impulsionando Bagging e Construindo Algoritmos Melhor

Como sobreviver a política corporativa como cientista de dados

8 Bibliotecas Top Python para Aprendizado de Máquinas

O que é uma árvore de decisão

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *