Quebrando Correlação

Shyam Sundar em Rumo à Ciência dos Dados Seguir Jul 7 · 4 min ler

Correlação é o primeiro passo para encontrar relações entre quantidades e merece alguma atenção. Correlação é definida como a associação entre quantidades, por exemplo, as vendas podem aumentar quando a renda das pessoas aumenta

Antes de nos aprofundarmos na matemática, precisamos entender a co-variância. Co-variância é a medida estatística de associação entre variáveis

Cov (x, y) = E [(x – E [x]) (y – E [y])]

A equação acima é equação para co-variância, vamos quebrar isso

E denota o valor esperado de uma variável, que não é nada além da média. x – E [x] nada mais é do que os valores de x subtraídos de sua média, que eventualmente fornece os desvios da média. Fazemos o mesmo para y e multiplicamos os desvios de x e y de suas respectivas médias. Isso pode ser pensado como um monte de retângulos como este

Para cada valor de xey obtemos retângulos como este e o vetor diagonal do retângulo médio nos dá a relação que pode ser grande e positiva se os pontos de dados seguem a mesma direção, se eles seguem direção oposta, obtemos uma diagonal grande e negativa vetor

Se as variáveis não estão relacionadas, o vetor diagonais deve cancelar em média e nós temos uma magnitude de 0

Agora, o que isso tem a ver com correlação? O valor de covariância ainda está na mesma escala que x e y, por exemplo, cov (x, y) = 7.8 e cov (a, b) = 6.4, podemos ver que ambos estão associados positivamente, mas não podemos dizer qual é fortemente associado. Correlação padroniza esse valor por uma medida de variabilidade para obter os valores em uma escala consistente

Coeficiente de correlação de Pearson

O método de Pearson é o coeficiente de correlação mais amplamente utilizado, que envolve a padronização da covariância com uma medida do produto dos desvios padrão individuais de x e y. Isso resulta em uma associação linear entre variáveis, o que significa que descreve a relação usando uma linha, parece familiar? Sim, parece uma linha de melhor ajuste. Vamos voltar a essa parte

Como pode ser visto, o numerador é a covariância eo denominador padroniza os valores de -1 a 1 usando os desvios padrão que facilitam a interpretação.

O coeficiente é próximo de 0 se as variáveis x e y são independentes, mas não o contrário, vamos ver porque em um pouco

Existe semelhança clara entre a linha de regressão e o coeficiente de correlação. A linha de melhor ajuste é calculada minimizando as distâncias entre os pontos, o que é matematicamente equivalente aos desvios no numerador da equação de correlação. Portanto, a correlação pode ser escrita com segurança como

? = b (sx / sy)

onde b = inclinação

Tendo dito que a correlação não é equivalente à inclinação. A inclinação padronizada por uma medida de variabilidade fornece o coeficiente de correlação! Voila! . Em outras palavras, podemos ter uma magnitude menor de inclinação com um alto coeficiente de correlação, porque a linha de melhor ajuste não leva em conta a variabilidade das variáveis.

Portanto, atente para isso na próxima vez que encontrar semelhanças entre as duas medidas. A desvantagem de usar a correlação é que ela é sensível a valores discrepantes, pois usa a média, SD para calcular o relacionamento

Outra maneira de interpretar o coeficiente de correlação, que é sem unidade, é por quadratura, o que obtemos, por sua vez, é a proporção de variância de y explicada pela variável x, parece familiar? Sim, é a métrica R2 usada para medir o desempenho de modelos ML lineares

Por exemplo, quadrado de correlação = (-0,85) dá aproximadamente 72%

Isso ocorre porque no método dos mínimos quadrados calculamos a proporção da soma dos erros quadrados do total e subtraímos em 1 para obter a variabilidade explicada corretamente que é matematicamente equivalente ao quadrado do coeficiente de correlação que também explica a variabilidade dos dados.

Estas são algumas das formas de olhar para a correlação. Na verdade, existem mais 13 maneiras de analisá-la, então da próxima vez que aprendermos uma métrica, como cientistas de dados, devemos estar dispostos a examiná-las de várias maneiras, porque cada métrica está conectado a alguma outra métrica de alguma forma

Felicidades !