Machine Learning – Probabilidade e Estatística

Probabilidade essencial e estatísticas para aprendizado de máquina

Javaid Nabi Blocked Unblock Seguir Seguindo 7 de janeiro

O Aprendizado de Máquina é um campo interdisciplinar que usa estatísticas, probabilidades, algoritmos para aprender com dados e fornece insights que podem ser usados para construir aplicativos inteligentes. Neste artigo, discutiremos alguns dos principais conceitos amplamente utilizados no aprendizado de máquina.

Probabilidade e estatística são áreas relacionadas da matemática que se preocupam em analisar a frequência relativa de eventos.

Probabilidade lida com a previsão da probabilidade de eventos futuros, enquanto a estatística envolve a análise da frequência de eventos passados.

Probabilidade

A maioria das pessoas tem um entendimento intuitivo dos graus de probabilidade, e é por isso que usamos palavras como “provavelmente” e “improvável” em nossa conversa diária, mas falaremos sobre como fazer afirmações quantitativas sobre esses graus [1].

Na teoria da probabilidade, um evento é um conjunto de resultados de um experimento para o qual uma probabilidade é atribuída. Se E representa um evento, então P(E) representa a probabilidade de que E ocorra. Uma situação em que E pode acontecer ( sucesso ) ou pode não acontecer ( falha ) é chamada de tentativa .

Este evento pode ser qualquer coisa como jogar uma moeda, jogar um dado ou puxar uma bola colorida de um saco. Nestes exemplos, o resultado do evento é aleatório, portanto, a variável que representa o resultado desses eventos é chamada de variável aleatória.

Vamos considerar um exemplo básico de jogar uma moeda. Se a moeda é justa, então é tão provável que surja a cabeça como é para subir. Em outras palavras, se jogássemos repetidas vezes a moeda muitas vezes, esperaríamos que cerca de metade dos lançamentos fossem cara e meia para ser coroa. Neste caso, dizemos que a probabilidade de obter uma cabeça é 1/2 ou 0.5.

A probabilidade empírica de um evento é dada pelo número de vezes que o evento ocorre dividido pelo número total de incidentes observados. Se por n ensaios e observamos s sucessos, a probabilidade de sucesso é s / n. No exemplo acima. qualquer seqüência de lançamentos de moeda pode ter mais ou menos que exatamente 50% de cabeças.

A probabilidade teórica, por outro lado, é dada pelo número de maneiras pelas quais um determinado evento pode ocorrer dividido pelo número total de resultados possíveis. Assim, uma cabeça pode ocorrer uma vez e os resultados possíveis são dois (cabeça, cauda). A probabilidade verdadeira (teórica) de uma cabeça é 1/2.

Probabilidade conjunta

A probabilidade dos eventos A e B denotados por P(A and B) or P(A ? B) é a probabilidade de que os eventos A e B ocorram. P(A ? B) = P(A). P(B) . Isso só se aplica se A e B forem independentes, o que significa que se A ocorreu, isso não altera a probabilidade de B e vice-versa.

Probabilidade Condicional

Vamos considerar que A e B não são independentes, porque se A ocorreu, a probabilidade de B é maior. Quando A e B não são independentes, freqüentemente é útil calcular a probabilidade condicional, P (A | B), que é a probabilidade de A dado que B ocorreu: P(A|B) = P(A ? B)/ P(B) .

A probabilidade de um evento A condicionado em um evento B é denotado e definido P(A|B) = P(A?B)/P(B)

Similarmente, P(B|A) = P(A ? B)/ P(A) . Podemos escrever a probabilidade conjunta de como A e B como P(A ? B)= p(A).P(B|A) , que significa: “A chance de ambas as coisas acontecerem é a chance que a primeira acontece, e depois o segundo, dado o primeiro aconteceu.

Teorema de Bayes

O teorema de Bayes é uma relação entre as probabilidades condicionais de dois eventos. Por exemplo, se quisermos encontrar a probabilidade de vender sorvete em um dia quente e ensolarado, o teorema de Bayes nos fornece as ferramentas para usar o conhecimento prévio sobre a probabilidade de vender sorvete em qualquer outro tipo de dia (chuvoso, ventoso, nevado etc.).

onde H e E são eventos, P(H|E) é a probabilidade condicional de que o evento H ocorre, dado que o evento E já ocorreu. A probabilidade P(H) na equação é basicamente análise de frequência; dados os nossos dados anteriores, qual é a probabilidade do evento ocorrer. O P(E|H) na equação é chamado de probabilidade e é essencialmente a probabilidade de que a evidência esteja correta, dadas as informações da análise de frequência. P(E) é a probabilidade de que a evidência real seja verdadeira.

Vamos H representar o evento que vendemos sorvete e E ser o evento do tempo. Então poderíamos perguntar qual é a probabilidade de vender sorvete em qualquer dia dado o tipo de clima? Matematicamente isso é escrito como P(H=ice cream sale | E= type of weather) que é equivalente ao lado esquerdo da equação. P(H) no lado direito é a expressão que é conhecida como a anterior, porque já poderíamos saber a probabilidade marginal da venda de sorvete . Em nosso exemplo, isso é P(H = ice cream sale) , ou seja, a probabilidade de vender sorvete, independentemente do tipo de clima externo. Por exemplo, eu poderia olhar dados que disseram que 30 pessoas de um potencial de 100 realmente compraram sorvete em alguma loja em algum lugar. Então, meu P(H = ice cream sale) = 30/100 = 0.3, antes de eu saber alguma coisa sobre o tempo . É assim que o teorema de Bayes nos permite incorporar informações prévias [2].

Um uso clássico do teorema de Bayes está na interpretação de testes clínicos. Suponha que, durante um exame médico de rotina, seu médico lhe informe que você testou positivo para uma doença rara. Você também está ciente de que há alguma incerteza nos resultados desses testes. Assumindo que temos uma sensibilidade (também chamada de taxa positiva verdadeira) para 95% dos pacientes com a doença, e um resultado de especificidade (também chamado de taxa negativa verdadeira ) para 95% dos pacientes saudáveis.

Se deixarmos “+” e “-” denotar um resultado de teste positivo e negativo, respectivamente, então as precisões do teste são as probabilidades condicionais: P (+|disease) = 0.95, P (-|healthy) = 0.95,

Em termos bayesianos, queremos calcular a probabilidade de doença com um teste positivo, P (disease|+) .

 P (disease|+)  = P( +|disease) * P (disease) /P (+) 

Como avaliar P(+) , todos os casos positivos? Temos que considerar duas possibilidades, P (+|disease) e P (+|healthy) . A probabilidade de um falso positivo, P (+|healthy) , é o complemento do P (-|healthy). Assim, P (+|healthy) = 0.05 .

É importante ressaltar que o teorema de Bayes revela que, para calcular a probabilidade condicional de que você tem a doença, o teste foi positivo, você precisa saber a probabilidade “anterior” de ter a doença P (disease) , sem nenhuma informação. Ou seja, você precisa saber a incidência geral da doença na população a qual você pertence. Assumindo que esses testes são aplicados a uma população onde a doença atual é de 0,5%, P (disease) = 0.005 significa P (healthy) = 0.995 .

Então, P(disease|+) = 0.95 * 0.005 /(0.95 * 0.005 + 0.05 * 0.995) = 0.088

Em outras palavras, apesar da aparente confiabilidade do teste, a probabilidade de você ter a doença ainda é menor que 9%. Obter um resultado positivo aumenta a probabilidade de você ter a doença. Mas é incorreto interpretar a precisão do teste de 95% como a probabilidade de você ter a doença.

Estatísticas descritivas

Estatísticas descritivas referem-se a métodos para resumir e organizar as informações em um conjunto de dados. Vamos usar a tabela abaixo para descrever alguns dos conceitos estatísticos [4].

Elementos : as entidades para as quais as informações são coletadas são chamadas de elementos. Na tabela acima, os elementos são os 10 candidatos. Elementos também são chamados de casos ou assuntos.

Variáveis : A característica de um elemento é chamada de variável. Pode ter valores diferentes para diferentes elementos, como estado civil, hipoteca, renda, classificação, ano e risco. Variáveis também são chamadas de atributos.

As variáveis podem ser qualitativas ou quantitativas .

Qualitativa: Uma variável qualitativa permite que os elementos sejam classificados ou categorizados de acordo com alguma característica. As variáveis qualitativas são marital status , mortgage , rank e risk . Variáveis qualitativas também são chamadas de variáveis categóricas .

Quantitativo: Uma variável quantitativa aceita valores numéricos e permite que a aritmética seja realizada de maneira significativa. As variáveis quantitativas são income e year . Variáveis quantitativas também são chamadas de variáveis numéricas .

Variável Discreta : Uma variável numérica que pode receber um número finito ou um número contável de valores é uma variável discreta, para a qual cada valor pode ser representado graficamente como um ponto separado, com espaço entre cada ponto. 'year' é um exemplo de uma variável discreta ..

Variável Contínua : Uma variável numérica que pode assumir infinitamente muitos valores é uma variável contínua, cujos valores possíveis formam um intervalo na reta numérica, sem espaço entre os pontos. 'income' é um exemplo de uma variável contínua.

População : Uma população é o conjunto de todos os elementos de interesse para um problema específico. Um parâmetro é uma característica de uma população.

Amostra : Uma amostra consiste em um subconjunto da população. Uma característica de uma amostra é chamada de estatística.

Amostra aleatória : Quando pegamos uma amostra para a qual cada elemento tem uma chance igual de ser selecionado.

Medidas do centro: média, mediana, modo, mid-range

Indique onde, na linha numérica, está localizada a parte central dos dados.

Significar

A média é a média aritmética de um conjunto de dados. Para calcular a média, some os valores e divida pelo número de valores. A média da amostra é a média aritmética de uma amostra e é denotada x? (“x-bar”). A média populacional é a média aritmética de uma população e é denotada ? (“myu”, a letra grega para m).

Mediana

A mediana é o valor médio dos dados, quando há um número ímpar de valores de dados e os dados foram classificados em ordem crescente. Se houver um número par, a mediana é a média dos dois valores médios de dados. Quando os dados de renda são classificados em ordem crescente, os dois valores médios são $ 32.100 e $ 32.200, cuja média é a renda média, $ 32.150.

Modo

O modo é o valor de dados que ocorre com a maior frequência. Variáveis quantitativas e categóricas podem ter modos, mas apenas variáveis quantitativas podem ter médias ou medianas. Cada valor de renda ocorre apenas uma vez, portanto, não há modo. O modo para o ano é 2010, com uma frequência de 4.

Intervalo médio

O intervalo médio é a média dos valores máximo e mínimo em um conjunto de dados. A renda média é:

 mid-range(income) = (max(income) + min(income))/2 = (48000 + 24000)/2 = $36000 

Medidas de Variabilidade: Faixa, Variância, Desvio Padrão

Quantifique a quantidade de variação, dispersão ou dispersão presente nos dados.

Alcance

O intervalo de uma variável é igual à diferença entre os valores máximo e mínimo. A faixa de renda é:

 range(income) = max (income) ? min (income) = 48,000 ? 24,000 =$24000 

O intervalo reflete apenas a diferença entre a maior e a menor observação, mas não reflete como os dados são centralizados.

Variância

A variância da população é definida como a média das diferenças ao quadrado da média, denotada como ? ² (“sigma-quadrado”):

Desvio maior significa que os dados estão mais espalhados.

A amostra variância s ² é aproximadamente a média dos desvios quadrados, com N substituídas por n-1 . Essa diferença ocorre porque a média da amostra é usada como uma aproximação da média real da população.

Desvio padrão

O desvio padrão ou sd de um grupo de números informa quanto os números individuais tendem a diferir da média.

O desvio padrão da amostra é a raiz quadrada da variância da amostra: sd = ? s ² . Por exemplo, as rendas se desviam de sua média em US $ 7201.

O desvio padrão da população é a raiz quadrada da variância da população: sd= ? ? ² .

Três diferentes distribuições de dados com a mesma média (100) e desvio padrão diferente (5,10,20)

Quanto menor o desvio padrão, mais estreito o pico, os pontos de dados estão mais próximos da média. Quanto mais os pontos de dados forem da média, maior o desvio padrão.

Medidas de posição: percentil, pontuação Z, quartis

Indique a posição relativa de um determinado valor de dados na distribuição de dados.

Percentil

O percentual pth de um conjunto de dados é o valor de dados, de modo que p por cento dos valores no conjunto de dados sejam iguais ou inferiores a esse valor. O percentil 50 é a mediana. Por exemplo, a receita média é de US $ 32.150 e 50% dos valores de dados estão nesse valor ou abaixo.

Classificação percentual

o A classificação percentil de um valor de dados é igual à porcentagem de valores no conjunto de dados que estão nesse valor ou abaixo dele. Por exemplo, a classificação percentil. A renda do Requerente 1, de US $ 38.000, é de 90%, já que essa é a porcentagem de rendas igual ou inferior a US $ 38.000.

Intervalo Interquartílico (IQR)

O primeiro quartil (Q1) é o 25º percentil de um conjunto de dados; o segundo quartil (Q2) é o percentil 50 (mediana); e o terceiro quartil (Q3) é o 75º percentil.

O IQR mede a diferença entre a 75ª e a 25ª observação usando a fórmula: IQR = Q3 – Q1.

Um valor de dados x é um outlier se x ? Q1 ? 1.5(IQR), or x ? Q3 + 1.5(IQR).

Pontuação Z

o O escore Z para um determinado valor de dados representa quantos desvios padrão o valor de dados está acima ou abaixo da média.

Então, se z for positivo, significa que o valor está acima da média. Para o Requerente 6, a pontuação Z é (24.000 – 32.540) / 7201 1 ?1,2, o que significa que o rendimento do Requerente 6 é de 1,2 desvios padrão abaixo da média.

Estatística descritiva univariada

Diferentes maneiras de descrever padrões encontrados em dados univariados incluem tendência central: média, moda e mediana e dispersão: variação, variância, máximo, mínimo, quartis e desvio padrão.

Gráfico de pizza [à esquerda] e gráfico de barras [à direita] do estado civil da tabela de candidatos a empréstimos.

Os vários gráficos usados para visualizar dados univariados são tipicamente gráficos de barras, histogramas e gráficos de pizza. etc.

Estatística descritiva bivariada

A análise bivariada envolve a análise de duas variáveis com o objetivo de determinar a relação empírica entre elas. Os vários gráficos usados para visualizar dados bivariados são tipicamente gráficos de dispersão, gráficos de caixa .

Gráficos de dispersão

A maneira mais simples de visualizar a relação entre duas variáveis quantitativas, x e y. Para duas variáveis contínuas, um gráfico de dispersão é um gráfico comum. Cada ponto (x, y) é representado graficamente em um plano cartesiano, com o eixo x na horizontal e o eixo y na vertical. Gráficos de dispersão são às vezes chamados de gráficos de correlação porque mostram como duas variáveis são correlacionadas.

Correlação

Uma correlação é uma estatística destinada a quantificar a força do relacionamento entre duas variáveis. O coeficiente de correlação r quantifica a força e direção da relação linear entre duas variáveis quantitativas. O coeficiente de correlação é definido como:

onde sx e sy representam o desvio padrão da variável x e da variável y, respectivamente. ?1 ? r ? 1 .

Se r é positivo e significativo, dizemos que x e y estão positivamente correlacionados . Um aumento em x está associado a um aumento em y.

Se r é negativo e significativo, dizemos que x e y são negativamente correlacionados . Um aumento em x está associado a uma diminuição em y.

Correlação positiva (r> 0), Correlação negativa (r <0), Nenhuma correlação (r = 0)

Boxes

Um box plot também é chamado de box e whisker plot e é usado para visualizar a distribuição de valores. Quando uma variável é categórica e a outra contínua, um box-plot é comumente usado . Quando você usa uma plotagem de caixa, divide os valores de dados em quatro partes chamadas quartis. Você começa encontrando o valor médio ou médio. A mediana divide os valores de dados em metades. Encontrar a mediana de cada metade divide os valores dos dados em quatro partes, os quartis.

Cada caixa na plotagem mostra o intervalo de valores da mediana da metade inferior dos valores na parte inferior da caixa até a mediana da metade superior dos valores na parte superior da caixa. Uma linha no meio da caixa ocorre na mediana de todos os valores de dados. Os bigodes apontam para os maiores e menores valores nos dados.

O resumo de cinco números de um conjunto de dados consiste no minimum , Q1 , median , Q3 e o maximum .

Box plots são especialmente úteis para indicar se uma distribuição é distorcida e se há observações incomuns potenciais (outliers) no conjunto de dados.

O bigode esquerdo se estende até o valor mínimo que não é um outlier. O bigode direito se estende até o valor máximo que não é um outlier. Quando o bigode esquerdo é maior que o bigode direito, a distribuição é enviesada à esquerda e vice-versa. Quando os bigodes têm aproximadamente o mesmo comprimento, a distribuição é simétrica.

Conclusão

Conceitos básicos de probabilidade e estatística são obrigatórios para qualquer pessoa interessada em aprendizado de máquina. Eu abordei brevemente alguns dos conceitos essenciais que são usados principalmente no aprendizado de máquina. Espero que tenham gostado deste post e aprendido algo novo e útil.

Obrigado por ler.

Referências

[1] http://greenteapress.com/thinkstats/thinkstats.pdf

[2] https://seeing-theory.brown.edu/basic-probability/index.html

[3] https://towardsdatascience.com/probability-concepts-explained-bayesian-inference-for-parameter-estimation-90e8930e5348

[4] https://onlinelibrary.wiley.com/doi/pdf/10.1002/9781118874059.app1

[5] https://medium.com/analytics-vidhya/descriptive-statistics-for-data-science-2f304a36ac34