Teorema de Bayes: O Santo Graal da Ciência de Dados

Derivação intuitiva do Teorema de Bayes

Artem Oppermann Blocked Unblock Seguir Seguindo 22 de dezembro

O Teorema de Bayes é talvez o mais importante teorema no campo da estatística matemática e da teoria da probabilidade. Por essa razão, o teorema encontra seu uso com muita frequência no campo da ciência de dados.
Neste artigo, vou usar um problema prático para derivar intuitivamente o Teorema de Bayes.

0. Introdução

Teorema ayes B, em homenagem do século 18 matemático britânico Thomas Bayes, é uma fórmula matemática para determinar as probabilidades condicionais. Este teorema tem enorme importância no campo da ciência de dados. Por exemplo, uma das muitas aplicações do teorema de Bayes é a inferência bayesiana, uma abordagem particular à inferência estatística.

A inferência bayesiana é um método no qual o teorema de Bayes é usado para atualizar a probabilidade de uma hipótese à medida que mais evidências ou informações se tornam disponíveis. A inferência bayesiana encontrou aplicação em uma ampla gama de atividades, incluindo ciência , engenharia , filosofia , medicina , esporte e direito .

Em finanças , por exemplo, o teorema de Bayes pode ser usado para classificar o risco de emprestar dinheiro a tomadores em potencial. Na medicina , o teorema pode ser usado para determinar a precisão dos resultados dos exames médicos, levando-se em consideração a probabilidade de uma determinada pessoa ter uma doença e a precisão geral do teste.

Vamos nos tornar práticos agora …

2. Declaração do Problema

C onsiderar duas taças X e Y , cheias de laranjas e mirtilos. Nesse caso, você sabe exatamente quantas laranjas e mirtilos estão em cada uma das duas tigelas.

Se eu lhe perguntar como é provável escolher uma laranja na tigela X , você pode dizer exatamente a probabilidade. Como há 11 itens na tigela X e 3 deles são laranjas, a probabilidade de escolher uma laranja seria p (laranja) = 3/11.

Taça X e Taça Y preenchidas com laranjas e mirtilos.

Caso invertido

Eu escolho cegamente um item e pego um mirtilo.

Mas o que acontece se eu pegar um item de uma tigela aleatória. E digamos que eu peguei um mirtilo. Você pode dizer a probabilidade de qual tigela o mirtilo foi escolhido?

Esta é a pergunta que pode ser respondida usando o Teorema de Bayes.

3. Derivação do Teorema de Bayes

A fim de derivar o Teorema de Bayes, vamos simular um experimento. Neste experimento, jogamos um dado. Toda vez que o dado mostra o número 4 ou menos, nós escolhemos um item da tigela X , para o número 5 ou maior, vamos pegar um item da tigela Y. E nós vamos fazer isso N = 300 vezes. E para simplificar, apresentamos as seguintes abreviações:

Mirtilo: = B, Laranja: = O, Taça X: = X, Taça Y: = Y

Depois de jogarmos os dados N = 300 vezes, obteremos alguns resultados estatísticos com relação ao número de itens que foram escolhidos nas duas taças. Um resultado hipotético do experimento é mostrado na Fig. 1. Aqui s representa a tigela ou a “fonte” de onde um item foi retirado. y é a variável observável (mirtilo ou laranja).

Fig. 1 Resultados estatísticos

A figura nos diz que nós escolhemos…

  • … 148 vezes um mirtilo da tigela X: n (s = X , y = B ) = 148
  • … 26 vezes um mirtilo da tigela Y: n (s = Y , y = B ) = 26
  • … 51 vezes uma laranja da taça X: n (s = X , y = O ) = 51
  • … 75 vezes uma laranja da taça Y: n (s = Y , y = O ) = 75

Dados esses números estatísticos, podemos agora fazer algumas perguntas interessantes…

Qual é a probabilidade de escolher um item aleatório na tigela X?

Para obter essa probabilidade que denotamos como p (s = X) , devemos dividir o número de itens escolhidos somente a partir do recipiente X dividido pelo número N = 300 do total de escolhas. Aqui está n (s = X , y = B ) = 148 o número de mirtilos colhidos de X e n (s = X , y = O ) = 51 o número de laranjas escolhida de X. Assim, a probabilidade de escolher qualquer item de X é a seguinte:

Eq. 1 Probabilidade de escolher um item da taça X.

Nota : Este tipo de probabilidade é chamado de “Probabilidade Prévia”. Na inferência estatística bayesiana, a probabilidade anterior é a probabilidade de um evento antes que novos dados sejam coletados. Nesse caso, p (s = X) informa a probabilidade de escolher um item de X , sem saber qual item é exatamente.

Assim, a probabilidade p (s = Y) para escolher um item de Y é:

Eq. 2 Probabilidade de escolher um item da tigela Y.

Qual é a probabilidade de escolher uma laranja / mirtilo?

Desta vez, queremos descobrir a probabilidade de escolher uma laranja ou mirtilo sem considerar uma tigela específica. Denotamos essas probabilidades como p (y = O) ep (y = B) . O cálculo é feito analogamente ao caso anterior. Estamos dividindo o número de escolhas de um item específico pelo número total de escolhas. As probabilidades resultantes são dadas pela Eq. 3 e eq. 4:

Eq. 3 Probabilidade de escolher um orange.Eq. 4 Probabilidade de escolher um mirtilo.

Qual é a probabilidade de escolher um mirtilo de X?

Agora vamos calcular a probabilidade conjunta p (s = X, y = B) que nos diz a probabilidade de escolher um mirtilo de X.

Nota : Probabilidade conjunta é a probabilidade do evento Nº 1 ocorrer ao mesmo tempo, evento Nº. 2 ocorre. Nesse caso, um evento é pegar na tigela que é X. O outro evento é o fato de termos escolhido um mirtilo.

Para calcular a probabilidade conjunta, precisamos dividir o número de vezes que escolhemos um mirtilo de X pelo número total de escolhas:

Eq. 5 Provavelmente para escolher um mirtilo de X.

Assim, a probabilidade de escolher um mirtilo de Y é:

Eq. 6 Provavelmente para escolher um mirtilo de Y.

E a probabilidade de escolher uma laranja de X é:

Eq. 7 Provavelmente para escolher uma laranja de X.

Dado que nós escolhemos de X, qual é a probabilidade de que é um mirtilo?

Agora fica interessante. Calculamos a primeira probabilidade condicional. Nesse caso, sabemos com certeza de que tigela escolheremos. Nesse caso, digamos que escolhemos de X. Dado este conhecimento, podemos calcular a probabilidade que nos diz a probabilidade de escolher um mirtilo.

Esta probabilidade condicional é denotada como p (y = B | s = X) , s = X sendo a condição que escolhemos o item de X. Para calcular p (y = B | s = X) , precisamos dividir o número de vezes que escolhemos blueberries de X pelo número total de itens escolhidos de X :

Eq. 8 Provavelmente para escolher um mirtilo, dado que escolhemos de X.

Regra do produto

É hora da primeira regra estatística importante. Aqui tomamos a probabilidade previamente derivados para escolher mirtilos de X p (s = X, Y = B) e estender esta equação, multiplicando-se com (n (s = X, Y = B) + n (s = X, y = O)) no denominador e numerador. Podemos fazer isso porque o valor da probabilidade p (s = X, y = B) não será alterado por essa extensão.

Agora, se você der uma olhada mais de perto na equação, você notará que a nova expressão para p (s = X, y = B) consiste no produto entre duas outras probabilidades p (y = B | s = X) ep ( s = X) que nós derivamos anteriormente.

Eq. 9 regra do produto

Essa relação entre probabilidades é chamada de regra do produto. A regra do produto nos permite calcular a probabilidade conjunta p (s = X, y = B) usando a probabilidade condicional p (y = B | s = X) e a probabilidade anterior p (s = X).

Regra de soma

Agora vamos revisitar a probabilidade anterior p (s = X) que nos dá a probabilidade de escolher qualquer item de X. Se você dividir a equação em dois summands como pode ser visto na segunda linha na Eq. 10 você pode observar que esses dois summands nada mais são do que duas probabilidades conjuntas que derivamos anteriormente.

Eq. 10 regra de soma

Essa relação é chamada de regra de soma. A regra da soma permite calcular a probabilidade p (X) anterior fazendo a soma das probabilidades conjuntas que contêm a variável aleatória s = X da variável anterior e qualquer outra variável aleatória y .

A regra de Bayes

Para a regra do produto, a ordem das variáveis aleatórias na junção não importa. Portanto, p (s, y) e p (y, s) têm o mesmo valor.

Se nós igualamos os valores p (s, y) e p (y, s) e fazemos alguma reorganização, obtemos uma nova expressão matemática para p (s | y). Esta nova expressão de p (s | y) é a regra de Bayes.

Eq. 12 Teorema de Bayes / Regra.

Finalmente: Qual tigela foi retirada do mirtilo?

O Teorema de Bayes nos fornece a fórmula para o cálculo da probabilidade condicional p (s | y), que é a resposta à nossa pergunta inicial.

O fato de termos escolhido um mirtilo pode ser representado pela condição y = B. Para responder a pergunta qual tigela foi o mirtilo escolhido, devemos calcular p (s | y = B) para s = X e s = Y. Ambos os valores de p (s | y) nos dizem a probabilidade de o mirtilo ter sido colhido na tigela X ou na tigela Y.

Vamos fazer o cálculo para s = X. Felizmente, todas as probabilidades de que precisamos já foram calculadas nas seções anteriores. Se inserirmos essas probabilidades em p (s = X | y = B) na Eq. Chegamos à seguinte conclusão: Dado que escolhemos um mirtilo, a probabilidade de que este mirtilo tenha sido colhido da tigela X é de aproximadamente 86%. O cálculo pode ser feito de forma análoga para qualquer outro caso.

Eq. 13 Teorema de Bayes

Sem o Teorema de Bayes, o cálculo de p (s | y) seria muito difícil. O teorema, no entanto, nos permite calcular essa probabilidade usando probabilidades que podem ser calculadas com muito menos esforço. Esta é a magia do Teorema de Bayes: Uma distribuição de probabilidade difícil de calcular é representada por probabilidades que são muito fáceis de calcular.