Uma abordagem bayesiana para estimar o efeito de um conteúdo e um dia da semana no post publicado em uma página do Facebook

Gulzina Kuttubekova Blocked Desbloquear Seguir Seguindo 3 de janeiro

  • Eu assumo que um leitor tem conhecimento de estatística Bayesiana
  • O código de amostra está aqui

Hoje, as mídias sociais se tornaram uma plataforma interativa, onde os clientes podem trocar ideias e deixar comentários sobre produtos. Com base em estatísticas de marketing, os adultos com idade entre 18 e 34 anos têm maior probabilidade de seguir sua marca favorita usando as mídias sociais (95%) . Como resultado, esses adultos se tornam clientes potenciais e um bom alvo para os gigantes da indústria. Quase todas as marcas populares usam essa ferramenta como "garantida" porque é:

Impressionados com o novo post da marca sobre seguidores de produtos daquela página tendem a “interagir” com esse post por “curtir”, deixando comentários e compartilhando o post com suas conexões. O número total de interações pode servir como um bom indicador de impacto pós. Pode haver um tremendo impacto ou nenhum impacto. Além disso, a extensão do impacto pode depender de outros fatores como o dia da semana em que o post foi publicado, seu conteúdo, etc. É nosso objetivo ajudar os proprietários a tomar decisões mais inteligentes com anúncios do Facebook, identificando se há um efeito de conteúdo ou um dia da semana no número total de interações com essa postagem. Para este fim, desenvolvemos um modelo hierárquico condicionalmente autorregressivo (CAR) que leva em consideração a dependência do tempo.

Usamos o conjunto de dados relacionado a postagens publicadas durante o ano de 2014 na página do Facebook de uma renomada marca de cosméticos.

Para a análise, escolhemos “Total Interactions” como variável de resposta primária, definida como:

 (1) Total interactions = (# of likes + # of comments + # of shares) 

Para modelar o impacto do post, selecionamos as variáveis categóricas “Type” e “Post weekday”. Aqui, "Tipo" categoriza a postagem em link, foto, status e vídeo. Todas essas métricas são conhecidas antes da publicação. O "Post weekday" indica em qual dia da semana o post foi publicado.

Para começar, a análise descritiva mostra que, em média, os usuários do Facebook interagiram mais com o vídeo, enquanto os links foram menos clicados. Como mostra o histograma, a distribuição de “Interações Totais” é altamente inclinada para a direita.

Como o modelo espera dados normalmente distribuídos, transformamos a variável de resposta em log (adicionando uma constante pequena) para obter dados distribuídos normalmente.

Para a referência futura de “Total Interactions” transformada em log, use o seguinte:

 (2) y = log(Total Interactions) 

O impacto da postagem pode ser medido pelo número total de interações, juntamente com o conteúdo e o dia da semana em que a postagem foi publicada. Como a variável “dia da semana” é dependente de vizinhança, assume-se que tenha um efeito aleatório espacial em y . Supõe-se que outra variável categórica “tipo” tenha um efeito fixo em y . Portanto, adicionamos o modelo CAR e os termos de tendência linear ao modelo final. Para todas as combinações de "tipo" e "dia da semana", calcularemos as probabilidades posteriores de, para uma determinada combinação, a média marginal ser maior que a de outras:

para j = {1, 2,…, n} / {i}, onde n = # de combinações de “tipo” e “dia da semana”. Além disso, distribuições posteriores de parâmetros de efeitos fixos e aleatórios nos ajudarão a responder a questão da declaração do problema.

Modelo

Para o modelo de interesse, seja y y i o valor para o i th post. Seja i , variando de 1 a 500, seja o post publicado em um determinado dia com o conteúdo específico. Nós assumimos que y_ i são distribuídos independentemente. Então, para um dado post, eu = {1, 2, 3,…}:

onde a média é definida como:

onde o efeito de dias é definido como:

Além disso, você pode ver como definimos antes do modelo:

Vamos quebrar isso. Em primeiro lugar, como uma difusa prévia para o desvio padrão, ?, escolhemos metade Cauchy prévia com o apoio positivo. Segundo, selecionamos antecedentes uniformes sobre a linha real em todos os parâmetros de efeitos fixos ? = [?1, ?2, ?3, ?4]. priors uniformes ‘s p tem uma cobertura suficiente sobre os valores possíveis para o termo tendência linear, ambas as tendências positivas e negativas. Finalmente, assume-se que ? , um parâmetro do modelo CAR, tem distribuição uniforme restringida pelos autovalores de

Usamos Stan com o pacote “rstan” R para gerar amostras a partir da distribuição posterior dos parâmetros. Um MCMC de quatro cadeias foi empregado com 10000 iterações no total e 5000 iterações de burn-in (discutiremos o MCMC no próximo post) . Acabamos com 20000 amostras MCMC gerado para p, p, e Ô parâmetros ?. O fator de redução de escala potencial em cadeias divididas é dado abaixo. Observe que Rhat = 1 para todos os parâmetros, o que significa que o MCMC convergiu normalmente.

Resultados

Na tabela anterior, você também pode ver medianas posteriores e 95% de intervalos confiáveis para cada parâmetro. Além disso, a seguir, pode encontrar distribuições posteriores de p, ô, ?, e parâmetros ?.

Usando resultantes posteriors de ? e parâmetros ò, e a equação para ?_?, calculou-se posteriors de ?_?. Depois disso, determinamos medianas posteriores marginais e 95% de intervalos credíveis para cada ?_? .

Nosso objetivo é identificar se há um efeito do conteúdo de uma postagem ou do dia em que foi publicado sobre o total de interações que a postagem coleta. Para responder à questão colocada, encontramos a probabilidade posterior se, para um dado type + weekday , sua média marginal é maior que a de outros (ver tabela anterior). A combinação de video + thursday tem a maior média marginal posterior de 0,9529. Isso significa que um post tem um impacto maior se for um vídeo publicado na quinta-feira. Posterior de ?_??? tem valores maiores que outros dias, enquanto posterior de ?_??? tem valores menores. Intervalos com credibilidade para ? são apertados e em torno de zero, movendo-se ligeiramente para a esquerda após quinta-feira.

A figura a seguir mostra vídeos, em média, com um número maior de interações totais. Postagens de status e foto coletam interações quase semelhantes. Como esperado, as postagens de link têm o menor número de interações totais.

Essa análise pode ser estendida ainda mais, incluindo as interações “type” e “weekday” no modelo.