5 estatísticas úteis que os cientistas de dados precisam saber

George Seif em Rumo à Ciência de Dados Seguir Jul 11 · 7 min ler

A Ciência de Dados pode ser praticamente definida como o processo pelo qual extraímos informações dos dados. Ao fazer a Data Science, o que estamos realmente tentando fazer é explicar o que todos os dados realmente significam no mundo real, além dos números.

Para extrair as informações incorporadas em conjuntos de dados complexos, os Data Scientists empregam várias ferramentas e técnicas, incluindo exploração, visualização e modelagem de dados. Uma classe muito importante de técnica matemática usada com freqüência na exploração de dados é a estatística .

Em um sentido prático, a estatística nos permite definir resumos matemáticos concretos de nossos dados. Em vez de tentar descrever todos os pontos de dados, podemos usar estatísticas para descrever algumas de suas propriedades. E isso é suficiente para extrairmos algum tipo de informação sobre a estrutura e composição dos dados.

Às vezes, quando as pessoas ouvem a palavra “estatística”, pensam em algo excessivamente complicado. Sim, pode ser um pouco abstrato, mas nem sempre precisamos recorrer às teorias complexas para obter algum tipo de valor das técnicas estatísticas.

As partes mais básicas das estatísticas muitas vezes podem ser de uso mais prático na Ciência de Dados.

Hoje, vamos analisar 5 estatísticas úteis para Data Science. Estes não serão conceitos abstratos malucos, mas sim técnicas simples e aplicáveis que percorrem um longo caminho.

Vamos começar!

(1) Tendência Central

A tendência central de um conjunto de dados ou variável de recurso é o valor central ou típico do conjunto. A ideia é que pode haver um único valor que possa descrever melhor (até certo ponto) nosso conjunto de dados.

Por exemplo, imagine se você tivesse uma distribuição normal centralizada na posição xy de (100, 100). Então o ponto (100, 100) é a tendência central, pois, dentre todos os pontos de escolha, é aquele que fornece o melhor resumo dos dados.

Para a Data Science, podemos usar medidas de tendência central para obter uma ideia rápida e simples de como nosso conjunto de dados é visto como um todo. O "centro" de nossos dados pode ser uma informação muito valiosa, nos dizendo como exatamente o conjunto de dados é tendencioso , uma vez que o valor que os dados geram é essencialmente um viés.

Existem duas maneiras comuns de selecionar matematicamente uma tendência central.

Significar

O valor médio de um conjunto de dados é o valor médio, ou seja, um número em torno do qual um dado inteiro é distribuído. Todos os valores usados no cálculo da média são ponderados igualmente ao definir a média.

Por exemplo, vamos calcular a média dos 5 números seguintes:

(3 + 64 + 187 + 12 + 52) / 5 = 63,6

A média é ótima para calcular a média matemática real. Também é muito rápido para calcular com bibliotecas Python como Numpy

Mediana

Mediana é o valor médio do conjunto de dados, isto é, se classificarmos os dados do menor para o maior (ou do maior para o menor) e, em seguida, tomarmos o valor no meio do conjunto: essa é a mediana.

Vamos novamente computar a Mediana para o mesmo conjunto de 5 números:

[3, 12, 52 , 64, 187] ? 52

O valor mediano é bem diferente do valor médio de 63,6. Nenhum deles está certo ou errado, mas podemos escolher um com base em nossa situação e objetivos.

A computação da mediana exige a classificação dos dados. Isso não será prático se o conjunto de dados for grande.

Por outro lado, o Mediano será mais robusto para outliers do que o Mean, já que o Mean será puxado de um modo ou de outro se houver valores outliers de magnitude muito alta.

A média e a mediana podem ser calculadas com one-liners simples numpy:

 numpy.mean (array) 
numpy.median (array)

(2) Spread

Sob o guarda-chuva da Estatística, a disseminação dos dados é a medida em que é espremida em direção a um valor único ou mais distribuída por um intervalo mais amplo.

Dê uma olhada nos gráficos das distribuições de probabilidade Gaussianas abaixo – imagine que essas são distribuições de probabilidade descrevendo um conjunto de dados do mundo real

A curva azul tem o menor valor de spread, já que a maioria de seus pontos de dados está dentro de um intervalo bastante estreito. A curva vermelha tem o maior valor de spread, já que a maioria dos pontos de dados ocupa uma faixa muito mais ampla.

A legenda mostra os valores de desvio padrão dessas curvas, explicados na próxima seção.

Desvio padrão

O desvio padrão é a maneira mais comum de quantificar a propagação de um dado. Calculá-lo envolve 5 etapas:

1. Encontre a média.

2. Para cada ponto de dados, encontre o quadrado de sua distância para a média.

3. Some os valores da etapa 2.

4. Divida pelo número de pontos de dados.

5. Pegue a raiz quadrada.

Feito com https://www.mathcha.io/editor

Um valor maior significa que nossos dados estão mais “espalhados” da média. Um valor menor significa que nossos dados estão mais concentrados em torno da média.

Calcule facilmente o desvio padrão em Numpy assim:

 numpy.std (array) 

(3) percentis

Podemos ainda descrever a posição de cada ponto de dados em todo o intervalo usando percentis .

O percentil descreve a posição exata do ponto de dados em termos de quão alto ou baixo ele está posicionado no intervalo de valores.

Mais formalmente, o percentil pth é o valor no conjunto de dados no qual ele pode ser dividido em duas partes. A parte inferior contém p por cento dos dados, ou seja, o percentil pth.

Por exemplo, considere o conjunto de 11 números abaixo:

 1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21 

O número 15 é o 70º percentil desde quando dividimos o conjunto de dados em 2 partes no número 15, 70% dos dados restantes são menores que 15.

Os percentis combinados com a média e o desvio padrão podem nos dar uma boa ideia de onde um ponto específico está dentro do intervalo / faixa de nossos dados. Se for um outlier, então seu percentual estará próximo das extremidades – menos de 5% ou maior que 95%. Por outro lado, se o percentil é calculado como próximo de 50, sabemos que está próximo de nossa tendência central.

O percentil 50 de um array pode ser calculado no Numpy assim:

 numpy.percentile (matriz, 50) 

(4) assimetria

O Skewness of data mede sua assimetria.

Um valor positivo para a assimetria significa que os valores estão concentrados à esquerda do centro dos pontos de dados; valores de significância de skewness negativos estão concentrados à direita do centro dos pontos de dados.

O gráfico abaixo fornece uma boa ilustração.

Podemos calcular a assimetria com a seguinte equação:

Feito com https://www.mathcha.io/editor

A assimetria nos dará uma ideia de quão próxima a distribuição de nossos dados está de ser gaussiana. Quanto maior a magnitude da assimetria, mais longe de uma distribuição gaussiana é o nosso conjunto de dados.

Isso é importante porque, se tivermos uma idéia aproximada da distribuição de nossos dados, podemos adaptar o modelo ML que iremos treinar para essa distribuição em particular. Além disso, nem todas as técnicas de modelagem ML serão eficazes em dados que não são gaussianos.

Mais uma vez, as estatísticas nos dão informações detalhadas antes de passarmos à modelagem!

Veja como podemos calcular o código Skewness in Scipy:

 scipy.stats.skew (array) 

(5) Covariância e Correlação

Covariância

A covariância de duas características variáveis mede quão “relacionadas” elas são. Se as duas variáveis tiverem uma covariância positiva, então, quando uma variável aumenta, o mesmo acontece com a outra; com uma covariância negativa, os valores das variáveis de recurso serão alterados em direções opostas.

Correlação

Correlação é simplesmente a covariância normalizada (escalonada) onde nós dividimos pelo produto do desvio padrão das duas variáveis sendo analisadas. Isso efetivamente força a faixa de correlação a estar sempre entre -1,0 e 1,0.

Se a correlação de duas variáveis de característica for 1.0, as variáveis terão uma correlação positiva perfeita. Isso significa que, se uma variável muda por um determinado valor, o segundo se move proporcionalmente na mesma direção.

Ilustração do PCA usado para redução de dimensionalidade

Um coeficiente de correlação positivo menor que um indica uma correlação positiva inferior à perfeita, com a força da correlação aumentando à medida que o número se aproxima de um. A mesma ideia funciona para valores negativos de correlação, apenas com os valores das variáveis de recurso mudando em direções opostas, em vez de mudar na mesma direção.

Saber sobre correlação é incrivelmente útil para técnicas como a Análise de Componentes Principais (PCA) usada para Redução de Dimensionalidade. Começamos calculando uma matriz de correlação – se há duas ou mais variáveis altamente correlacionadas, elas são efetivamente redundantes na explicação de nossos dados e algumas delas podem ser descartadas para reduzir a complexidade.