Qual classificação você deve confiar? IMDB, Tomates podres, Metacritic ou Fandango?

Um cientista de dados investiga

Você deve assistir a um filme? Bem, há muitos fatores a serem considerados, como o diretor, os atores e o orçamento do filme. A maioria de nós baseia nossa decisão fora de uma revisão, um trailer curto, ou apenas verificando a classificação do filme.

Existem algumas boas razões pelas quais você gostaria de evitar ler comentários, ou assistir a um trailer, embora eles tragam muito mais informações do que uma classificação.

Primeiro, você pode querer evitar completamente spoilers, por mais pequenos que sejam. Eu entendi aquilo!

Em segundo lugar, pode ser que você queira uma experiência não influenciada em assistir esse filme. Isso geralmente se aplica apenas a revisões, que são aspergidas com quadros, como "este é um filme sobre a complexidade do universo" ou "este filme não é realmente sobre o amor". Uma vez que esses quadros são codificados em sua memória de curto prazo, é realmente difícil impedir que eles interfiram com sua própria experiência de filme.

Outra boa razão é que se você estiver cansado ou apressado, talvez você não queira ler uma revisão, e muito menos ver um trailer de 2 minutos.

Então, uma classificação de filme numérico parece ser uma boa solução em algumas situações, para algumas pessoas.

Este artigo tem como objetivo recomendar um único site para obter rapidamente uma classificação de filme precisa e oferece uma argumentação robusta e baseada em dados para isso.

Critérios para "o melhor"

Fazer essa recomendação é muito como dizer "este é o melhor lugar para procurar uma classificação de filme", ??que é uma declaração de avaliação, descansando em alguns critérios utilizados para determinar o que é melhor, o que é pior ou pior e o que é melhor , nesse caso. Para minha recomendação, usarei um único critério: uma distribuição normal.

O melhor lugar para procurar uma classificação de filme é ver quais classificações são distribuídas em um padrão que mais se assemelha, ou é idêntico ao padrão de uma distribuição normal, que é: dado um conjunto de valores que se situam em um determinado intervalo , a maioria deles está no meio dela e os poucos outros nos extremos desse intervalo. Geralmente, é assim que se parece uma distribuição normal (também chamada de gaussiana):

Uma distribuição normal (ou gaussiana) de classificações de filmes significa que existem algumas avaliações baixas, muitas das médias e algumas altas. Uma distribuição normal ideal significa o melhor neste contexto.

Qual o raciocínio por trás desse critério? Bem, da minha própria experiência composta por várias centenas de filmes, posso dizer que eu vi:

  • alguns dos mais notáveis ??que assisti várias vezes
  • um casal que foi realmente assustador, e me fez arrepender o tempo que passou por vê-los
  • e um monte de pessoas comuns, na maioria das quais não consigo lembrar mais o enredo.

Eu acredito que a maioria das pessoas – seja críticas, cinéfilos ou apenas espectadores regulares – tiveram uma experiência similar.

Se as classificações de filmes realmente expressam a qualidade do filme, então devemos ver o mesmo padrão para ambos.

Dado que a maioria de nós avalia a maior parte dos filmes como sendo de qualidade média, devemos ver o mesmo padrão quando analisamos classificações de filmes. Uma lógica semelhante aplica-se a filmes ruins e bons.

Cada barra é pensada aqui para corresponder a uma classificação (também pode corresponder a um intervalo de classificação). Quanto maior a barra, maior o número de filmes com essa classificação.

Se você ainda não está convencido de que deve haver uma correspondência entre os padrões, pense na distribuição de classificações para um único filme. Muitas pessoas classificam o filme, não é um pulo de fé assumir que na maioria das vezes haverá muitos deles com preferências semelhantes. Eles geralmente concordam que o filme é ruim, médio ou bom (eu vou quantificar mais tarde esses valores qualitativos). Além disso, haverá alguns outros que avaliem o filme com um dos dois outros valores qualitativos.

Se visualizássemos a distribuição de todas as classificações para um filme individual, provavelmente veríamos que um único cluster se forma em uma das áreas correspondentes a uma classificação baixa, média ou alta.

Desde que a maioria dos filmes seja considerada média, o cluster em torno da área média tem a maior probabilidade de ocorrência, e os outros dois clusters têm uma probabilidade menor (mas ainda significativa). (Observe que todas essas probabilidades podem ser quantificadas em princípio, mas isso exigiria muitos dados e teria o potencial de transformar este artigo em um livro.)

O menos provável seria uma distribuição uniforme em que não existam clusters, e as preferências das pessoas são divididas quase que em todos os três valores qualitativos.

Dadas estas probabilidades, a distribuição de classificações para uma amostra suficientemente grande de filmes deve ser uma com um agrupamento contundente na área média, limitado por barras de altura (freqüência) decrescente, assim como uma distribuição normal.

Se você achou isso muito difícil de entender, considere esta ilustração:

Observe a distinção entre "provável" e "muito provável".

IMDB, Tomates podres, Fandango ou Metacritico?

Agora que temos um critério para trabalhar, vamos mergulhar nos dados.

Há muitos sites por aí que apresentam suas próprias classificações de filmes. Eu escolhi apenas quatro, principalmente com base em sua popularidade, para que eu pudesse obter classificações para filmes com um número aceitável de votos. Os vencedores felizes são IMDB , Fandango , Tomates podres e Metacritic .

Nos últimos dois, eu me concentrei apenas em seus tipos de classificação icônicos – ou seja, o tomtometro e o metascore? principalmente porque estes são mais visíveis para o usuário em cada um dos sites (o que significa que é mais rápido encontrá-los). Estes também são compartilhados nos outros dois sites (o metascore é compartilhado na IMDB e o tomtometro no Fandango). Além dessas classificações icônicas, ambos os sites também possuem um tipo de classificação menos caracterizado onde somente usuários conseguem contribuir.

Eu colecionei avaliações para alguns dos filmes mais votados e revistos em 2016 e 2017. O conjunto de dados limpo possui avaliações para 214 filmes e pode ser baixado deste repositório Github .

Não colecionei classificações para filmes lançadas antes de 2016, simplesmente porque ocorreu uma ligeira alteração no sistema de classificação do Fandango logo após a análise de Walt Hickey , a que me referirei mais adiante neste artigo.

Estou ciente de que trabalhar com uma pequena amostra é arriscado, mas pelo menos isso é compensado obtendo o instantâneo mais recente das distribuições das classificações.

Antes de traçar e interpretar as distribuições, deixe-me quantificar os valores qualitativos que usei anteriormente: em uma escala de 0 a 10, um filme ruim está em algum lugar entre 0 e 3, uma média entre 3 e 7 e uma boa entre 7 e 10 .

Por favor, tome nota da distinção entre qualidade e quantidade. Para mantê-lo discernível no que se segue, me referirei a classificações (quantidade) como sendo baixa, média ou alta. Como antes, a qualidade do filme é expressa como ruim, média ou boa. Se você se preocupa com o termo "médio" sendo o mesmo, não, porque eu vou cuidar para evitar qualquer ambigüidade.

Agora vamos dar uma olhada nas distribuições:

Cada classificação tem suas peculiaridades. Para IMDB e Fandango, cada barra corresponde a um intervalo de 0,5, e para os outros dois, o alcance de uma barra tem um valor de 5.

De um simples olhar, pode-se notar que o histograma do metascore (é o que esse tipo de gráfico é chamado) é mais parecido com uma distribuição normal. Tem um agrupamento grosso na área média composta por barras de alturas irregulares, o que torna a parte superior nem sem corte, nem afiada.

No entanto, eles são mais numerosos e mais altos do que os bares em cada uma das outras duas áreas, que diminuem em altura em direção a extremos, mais ou menos gradualmente. Tudo isso indica claramente que a maioria dos metascores tem um valor médio, o que é praticamente o que estamos procurando.

No caso da IMDB, a maior parte da distribuição também está na área média, mas há uma inclinação óbvia para os valores médios mais altos. A área de classificações altas parece semelhante à que seria esperado para uma distribuição normal naquela parte do histograma. No entanto, a característica impressionante é que a área que representa baixas classificações de filmes está completamente vazia, o que levanta um grande ponto de interrogação.

Inicialmente, coloco a pequena amostra, pensando que uma maior seria mais justa para a IMDB. Felizmente, consegui encontrar um conjunto de dados pronto em Kaggle contendo ratings IMDB para 4.917 filmes diferentes. Para minha grande surpresa, a distribuição parecia assim:

Essa semelhança aumenta a confiança em relação à representatividade da amostra menor.

A forma da distribuição parece quase igual à da amostra com 214 filmes, com exceção da baixa área de classificação, que é neste caso devidamente preenchida com 46 filmes (de 4917). A maior parte dos valores ainda está na área média, o que faz com que a classificação IMDB valha a pena considerar mais para uma recomendação, embora seja claramente difícil rivalizar com o metascore, com essa inclinação.

De qualquer forma, o que é realmente ótimo sobre este resultado é que ele pode ser usado como um forte argumento para apoiar a tese de que a amostra de 214 filmes é bastante representativa para toda a população. Em outras palavras, há uma maior confiança agora que os resultados dessa análise seriam os mesmos – ou pelo menos semelhantes – aos resultados alcançados se absolutamente todas as avaliações de filmes de todos os quatro sites fossem analisadas.

Com esta confiança aumentada, vamos passar a examinar a distribuição dos ratings de Fandango, o que não parece ter mudado muito desde a análise de Hickey. A inclinação ainda está visivelmente em direção à maior parte do espectro de classificação de filmes, onde a maioria das classificações residem. A área para a metade inferior das classificações médias está completamente vazia, assim como a classificação baixa. Pode-se concluir facilmente que a distribuição está bastante longe de ajustar meu critério. Consequentemente, não considerarei isso ainda mais para uma possível recomendação.

(Eu prometo que o tormento de rolagem acabará em breve. É muito mais fácil comparar as distribuições se elas forem colocadas uma perto da outra, ao invés de as espalhar pelo artigo.)

Por fim, a distribuição do tomtometro é inesperadamente uniforme, e pareceria ainda mais lisonjeira sob uma estratégia de binários diferente (uma estratégia de binning é definida pelo número total de barras e seus intervalos, você pode jogar com esses dois parâmetros quando você está gerando um histograma) .

Esta distribuição não é fácil de interpretar no contexto, porque o tomômetro não é uma classificação clássica, mas sim representa a porcentagem de críticos que deram uma revisão positiva a um filme. Isso torna impróprio o quadro qualitativo mal-médio-bom, porque faz filmes bem ou mal. De qualquer forma, acho que ainda deve se resumir à mesma distribuição normal, com a maioria dos filmes com uma diferença moderada entre o número de avaliações positivas e as negativas (rendendo muitas classificações de 30% – 70% de críticas positivas) e uma Alguns filmes têm uma diferença significativamente maior, de uma forma ou de outra.

Dada a última consideração e a forma da distribuição, o tomômetro não cumpre o meu critério. Poderia ser que uma amostra maior faria mais justiça, mas mesmo assim, se eu fosse recomendá-la, eu faria isso com algumas reservas por causa do vago sistema de classificação positiva ou negativa.

Neste ponto da análise, eu poderia dizer que ao analisar as distribuições, minha recomendação é o metascore.

No entanto, a distribuição da IMDB parece valer a pena considerar também, especialmente se você ajustar um pouco os intervalos de classificação para as três categorias qualitativas (intervalos que eu me defini, mais ou menos arbitrariamente). Nesta perspectiva, recomendar o metascore, principalmente fazendo um exame visual, claramente não é suficiente.

Então, tentarei delimitar entre estes dois usando um método quantitativo .

A idéia é usar a variável Fandango como uma referência negativa e, em seguida, determinar qual variável, da classificação IMDB e do metascore, é a menos correlacionada com ela (eu chamo essas variáveis ??porque elas podem ter valores diferentes – por exemplo, o metascore é uma variável porque leva valores diferentes, dependendo do filme).

Simplesmente calcularemos alguns coeficientes de correlação, e a variável com o menor valor será a minha recomendação (explicarei então como funcionam estes coeficientes de correlação). Mas antes disso, deixe-me justificar brevemente a escolha da variável Fandango como referência negativa.

Os usuários de Fandango adoram filmes demais

Um dos motivos dessa escolha é que a distribuição das classificações de filme de Fandango é a mais estranha daquela de um normal, tendo essa inclinação óbvia para a maior parte do espectro de classificações de filmes.

A outra razão é a nuvem de suspeita em torno de Fandango deixada pela análise de Walt Hickey . Em outubro de 2015, ele também ficou intrigado com uma distribuição similar e descobriu que, no site do Fandango, as classificações numéricas eram sempre arredondadas para a próxima meia-estrela mais alta, e não para a mais próxima (por exemplo, uma classificação média de 4.1 para um filme seria foram arredondados para 4,5 estrelas, em vez de 4,0).

A equipe do Fandango corrigiu o sistema de classificação tendenciosa e disse a Hickey que a lógica de classificação era mais uma "falha de software" em seu site, apontando para um sistema imparcial em seu aplicativo móvel. (Mais sobre isso no artigo de Hickey .) O ajuste mudou alguns parâmetros estatísticos para melhor, mas não o suficiente para me convencer de não trabalhar com a variável Fandango como referência negativa.

É assim que a mudança se parece:

Eu normalizei todos os outros tipos de classificação para combinar o Fandango – eu os converti para um sistema de classificação 0-5 e arredondado os valores convertidos para o 0.5 mais próximo. O acrônimo "FTE" significa FiveThirtyEight, a publicação on-line para a qual Hickey escreve.

Agora, vamos ampliar o Fandango:

As barras azuis representam o ano 2017 e os vermelhos 2015.

Entre o metascore ea classificação IMDB, que é o menos correlacionado com a classificação Fandango?

O menos correlacionado com o rating Fandango é o metascore. Tem um valor de Pearson de 0.38 em relação ao Fandango, enquanto a classificação IMDB tem um valor de 0,63.

Agora deixe-me explicar tudo isso.

À medida que duas variáveis ??mudam, tomando valores diferentes, elas são correlacionadas se houver um padrão correspondente a ambas as mudanças. Medir a correlação simplesmente significa medir a extensão em que existe esse padrão.

Uma das maneiras de realizar esta medida é calcular a r de Pearson. Se o valor for +1.0, significa que existe uma correlação positiva perfeita, e se for -1.0, significa que existe uma correlação negativa perfeita.

A medida em que as variáveis ??estão correlacionadas diminui à medida que o Pearson r se aproxima de 0, tanto do lado negativo quanto do positivo.

Vamos visualizar melhor isso:

As classificações podem ser plotadas em um gráfico. Cada um dos pequenos pontos que juntos compõem as formas acima poderia descrever as classificações de duas variáveis ??(por exemplo, Fandango e IMDB) para um filme específico. Crédito de imagem: Denis Boigelot (fonte: Wikipedia ).

Agora, para colocar a abstração acima em contexto, se compararmos como os valores de dois tipos de classificação mudam – digamos Fandango e IMDB – podemos determinar o grau em que há um padrão correspondente a ambas as mudanças.

Dado os coeficientes de correlação que acabamos de mencionar, há um padrão entre o Fandango e o IMDB em maior extensão do que o Fandango e o metascore. Ambos os coeficientes são positivos e, como tal, a correlação é dita ser positiva, o que significa que, à medida que as classificações do Fandango aumentam, as classificações da IMDB também aumentam, mais do que os metascores.

Dito de outra forma, para qualquer classificação de filme em Fandango, é mais provável que o metascore seja mais diferente do que a classificação IMDB.

O veredicto: use o metascore de Metacritic

Em suma, recomendo verificar o metascore sempre que você procura uma classificação de filme. Veja como funciona e suas desvantagens.

Em poucas palavras, o metascore é uma média ponderada de muitas críticas provenientes de críticos de renome. A equipe Metacritic lê os comentários e atribui cada uma pontuação 0-100, que é então dada um peso, principalmente com base na qualidade e fonte da revisão. Você pode encontrar mais sobre seu sistema de classificação aqui .

Agora, eu só quero apontar algumas desvantagens do metascore:

  • Os coeficientes de ponderação são confidenciais, então você não verá em que medida cada revisão contou no metascore.
  • Você terá um tempo difícil encontrando metascores para filmes menos conhecidos que apareceram antes de 1999, ano em que Metacritic foi criado.
  • Alguns filmes recentes cujo idioma principal não é inglês não estão listados em Metacritic. Por exemplo, os filmes romenos Two Lottery Tickets (2016) e Eastern Business (2016) não estão listados no Metacritic, enquanto eles estão no IMDB, com classificações.

Poucas palavras mais

Para resumir, neste artigo, fiz uma única recomendação de onde procurar uma classificação de filme. Eu recomenda o metascore, com base em dois argumentos: sua distribuição se parece com a mais normal, e é a menor correlação com a classificação Fandango.

Todos os elementos quantitativos e visuais do artigo são reprodutíveis em Python, como é mostrado aqui .

Obrigado por ler! E filme feliz!

Qual classificação você deve confiar? IMDB, Tomates podres, Metacritic ou Fandango?

Um cientista de dados investiga

Você deve assistir a um filme? Bem, há muitos fatores a serem considerados, como o diretor, os atores e o orçamento do filme. A maioria de nós baseia nossa decisão fora de uma revisão, um trailer curto, ou apenas verificando a classificação do filme.

Existem algumas boas razões pelas quais você gostaria de evitar ler comentários, ou assistir a um trailer, embora eles tragam muito mais informações do que uma classificação.

Primeiro, você pode querer evitar completamente spoilers, por mais pequenos que sejam. Eu entendi aquilo!

Em segundo lugar, pode ser que você queira uma experiência não influenciada em assistir esse filme. Isso geralmente se aplica apenas a revisões, que são aspergidas com quadros, como "este é um filme sobre a complexidade do universo" ou "este filme não é realmente sobre o amor". Uma vez que esses quadros são codificados em sua memória de curto prazo, é realmente difícil impedir que eles interfiram com sua própria experiência de filme.

Outra boa razão é que se você estiver cansado ou apressado, talvez você não queira ler uma revisão, e muito menos ver um trailer de 2 minutos.

Então, uma classificação de filme numérico parece ser uma boa solução em algumas situações, para algumas pessoas.

Este artigo tem como objetivo recomendar um único site para obter rapidamente uma classificação de filme precisa e oferece uma argumentação robusta e baseada em dados para isso.

Critérios para "o melhor"

Fazer essa recomendação é muito como dizer "este é o melhor lugar para procurar uma classificação de filme", ??que é uma declaração de avaliação, descansando em alguns critérios utilizados para determinar o que é melhor, o que é pior ou pior e o que é melhor , nesse caso. Para minha recomendação, usarei um único critério: uma distribuição normal.

O melhor lugar para procurar uma classificação de filme é ver quais classificações são distribuídas em um padrão que mais se assemelha, ou é idêntico ao padrão de uma distribuição normal, que é: dado um conjunto de valores que se situam em um determinado intervalo , a maioria deles está no meio dela e os poucos outros nos extremos desse intervalo. Geralmente, é assim que se parece uma distribuição normal (também chamada de gaussiana):

Uma distribuição normal (ou gaussiana) de classificações de filmes significa que existem algumas avaliações baixas, muitas das médias e algumas altas. Uma distribuição normal ideal significa o melhor neste contexto.

Qual o raciocínio por trás desse critério? Bem, da minha própria experiência composta por várias centenas de filmes, posso dizer que eu vi:

  • alguns dos mais notáveis ??que assisti várias vezes
  • um casal que foi realmente assustador, e me fez arrepender o tempo que passou por vê-los
  • e um monte de pessoas comuns, na maioria das quais não consigo lembrar mais o enredo.

Eu acredito que a maioria das pessoas – seja críticas, cinéfilos ou apenas espectadores regulares – tiveram uma experiência similar.

Se as classificações de filmes realmente expressam a qualidade do filme, então devemos ver o mesmo padrão para ambos.

Dado que a maioria de nós avalia a maior parte dos filmes como sendo de qualidade média, devemos ver o mesmo padrão quando analisamos classificações de filmes. Uma lógica semelhante aplica-se a filmes ruins e bons.

Cada barra é pensada aqui para corresponder a uma classificação (também pode corresponder a um intervalo de classificação). Quanto maior a barra, maior o número de filmes com essa classificação.

Se você ainda não está convencido de que deve haver uma correspondência entre os padrões, pense na distribuição de classificações para um único filme. Muitas pessoas classificam o filme, não é um pulo de fé assumir que na maioria das vezes haverá muitos deles com preferências semelhantes. Eles geralmente concordam que o filme é ruim, médio ou bom (eu vou quantificar mais tarde esses valores qualitativos). Além disso, haverá alguns outros que avaliem o filme com um dos dois outros valores qualitativos.

Se visualizássemos a distribuição de todas as classificações para um filme individual, provavelmente veríamos que um único cluster se forma em uma das áreas correspondentes a uma classificação baixa, média ou alta.

Desde que a maioria dos filmes seja considerada média, o cluster em torno da área média tem a maior probabilidade de ocorrência, e os outros dois clusters têm uma probabilidade menor (mas ainda significativa). (Observe que todas essas probabilidades podem ser quantificadas em princípio, mas isso exigiria muitos dados e teria o potencial de transformar este artigo em um livro.)

O menos provável seria uma distribuição uniforme em que não existam clusters, e as preferências das pessoas são divididas quase que em todos os três valores qualitativos.

Dadas estas probabilidades, a distribuição de classificações para uma amostra suficientemente grande de filmes deve ser uma com um agrupamento contundente na área média, limitado por barras de altura (freqüência) decrescente, assim como uma distribuição normal.

Se você achou isso muito difícil de entender, considere esta ilustração:

Observe a distinção entre "provável" e "muito provável".

IMDB, Tomates podres, Fandango ou Metacritico?

Agora que temos um critério para trabalhar, vamos mergulhar nos dados.

Há muitos sites por aí que apresentam suas próprias classificações de filmes. Eu escolhi apenas quatro, principalmente com base em sua popularidade, para que eu conseguisse classificações para filmes com um número aceitável de votos. Os vencedores felizes são IMDB , Fandango , Tomates podres e Metacritic .

Nos últimos dois, eu me concentrei apenas em seus tipos de classificação icônicos – ou seja, o tomtometro e o metascore? principalmente porque estes são mais visíveis para o usuário em cada um dos sites (o que significa que é mais rápido encontrá-los). Estes também são compartilhados nos outros dois sites (o metascore é compartilhado na IMDB e o tomtometro no Fandango). Além dessas classificações icônicas, ambos os sites também possuem um tipo de classificação menos caracterizado onde somente usuários conseguem contribuir.

Eu colecionei avaliações para alguns dos filmes mais votados e revistos em 2016 e 2017. O conjunto de dados limpo possui avaliações para 214 filmes e pode ser baixado deste repositório Github .

Não colecionei classificações para filmes lançadas antes de 2016, simplesmente porque ocorreu uma pequena alteração no sistema de classificação do Fandango logo após a análise de Walt Hickey , a que me referirei mais adiante neste artigo.

Estou ciente de que trabalhar com uma pequena amostra é arriscado, mas pelo menos isso é compensado obtendo o instantâneo mais recente das distribuições das classificações.

Antes de traçar e interpretar as distribuições, deixe-me quantificar os valores qualitativos que usei anteriormente: em uma escala de 0 a 10, um filme ruim está em algum lugar entre 0 e 3, uma média entre 3 e 7 e uma boa entre 7 e 10 .

Por favor, tome nota da distinção entre qualidade e quantidade. Para mantê-lo discernível no que se segue, me referirei a classificações (quantidade) como sendo baixa, média ou alta. Como antes, a qualidade do filme é expressa como ruim, média ou boa. Se você se preocupa com o termo "médio" sendo o mesmo, não, porque eu vou cuidar para evitar qualquer ambigüidade.

Agora vamos dar uma olhada nas distribuições:

Cada classificação tem suas peculiaridades. Para IMDB e Fandango, cada barra corresponde a um intervalo de 0,5, e para os outros dois, o alcance de uma barra tem um valor de 5.

De um simples olhar, pode-se notar que o histograma do metascore (é o que esse tipo de gráfico é chamado) é mais parecido com uma distribuição normal. Tem um agrupamento grosso na área média composta por barras de alturas irregulares, o que torna a parte superior nem sem corte, nem afiada.

No entanto, eles são mais numerosos e mais altos do que os bares em cada uma das outras duas áreas, que diminuem em altura em direção a extremos, mais ou menos gradualmente. Tudo isso indica claramente que a maioria dos metascores tem um valor médio, o que é praticamente o que estamos procurando.

No caso da IMDB, a maior parte da distribuição também está na área média, mas há uma inclinação óbvia para os valores médios mais altos. A área de classificações altas parece semelhante à que seria esperado para uma distribuição normal naquela parte do histograma. No entanto, a característica impressionante é que a área que representa baixas classificações de filmes está completamente vazia, o que levanta um grande ponto de interrogação.

Inicialmente, coloco a pequena amostra, pensando que uma maior seria mais justa para a IMDB. Felizmente, consegui encontrar um conjunto de dados pronto em Kaggle contendo ratings IMDB para 4.917 filmes diferentes. Para minha grande surpresa, a distribuição parecia assim:

Essa semelhança aumenta a confiança em relação à representatividade da amostra menor.

A forma da distribuição parece quase igual à da amostra com 214 filmes, com exceção da baixa área de classificação, que é neste caso devidamente preenchida com 46 filmes (de 4917). A maior parte dos valores ainda está na área média, o que faz com que a classificação IMDB valha a pena considerar mais para uma recomendação, embora seja claramente difícil rivalizar com o metascore, com essa inclinação.

De qualquer forma, o que é realmente ótimo sobre este resultado é que ele pode ser usado como um forte argumento para apoiar a tese de que a amostra de 214 filmes é bastante representativa para toda a população. Em outras palavras, há uma maior confiança agora que os resultados dessa análise seriam os mesmos – ou pelo menos semelhantes – aos resultados alcançados se absolutamente todas as avaliações de filmes de todos os quatro sites fossem analisadas.

Com esta confiança aumentada, vamos passar a examinar a distribuição dos ratings de Fandango, o que não parece ter mudado muito desde a análise de Hickey. A inclinação ainda está visivelmente em direção à maior parte do espectro de classificação de filmes, onde a maioria das classificações residem. A área para a metade inferior das avaliações médias está completamente vazia, assim como a classificação baixa. Pode-se concluir facilmente que a distribuição está bastante longe de ajustar meu critério. Consequentemente, não considerarei isso ainda mais para uma possível recomendação.

(Eu prometo que o tormento de rolagem acabará em breve. É muito mais fácil comparar as distribuições se elas forem colocadas uma perto da outra, ao invés de as espalhar pelo artigo.)

Por fim, a distribuição do tomtometro é inesperadamente uniforme, e pareceria ainda mais lisonjeira sob uma estratégia de binários diferente (uma estratégia de binning é definida pelo número total de barras e seus intervalos, você pode jogar com esses dois parâmetros quando você está gerando um histograma) .

Esta distribuição não é fácil de interpretar no contexto, porque o tomômetro não é uma classificação clássica, mas sim representa a porcentagem de críticos que deram uma revisão positiva a um filme. Isso torna impróprio o quadro qualitativo mal-médio-bom, porque faz filmes bem ou mal. De qualquer forma, acho que ainda deve se resumir à mesma distribuição normal, com a maioria dos filmes com uma diferença moderada entre o número de avaliações positivas e as negativas (representando muitas classificações de 30% – 70% de revisões positivas) e uma Alguns filmes têm uma diferença significativamente maior, de uma forma ou de outra.

Dada a última consideração e a forma da distribuição, o tomômetro não cumpre o meu critério. Poderia ser que uma amostra maior faria mais justiça, mas mesmo assim, se eu fosse recomendá-la, eu faria isso com algumas reservas por causa do vago sistema de classificação positiva ou negativa.

Neste ponto da análise, eu poderia dizer que ao analisar as distribuições, minha recomendação é o metascore.

No entanto, a distribuição da IMDB parece valer a pena considerar também, especialmente se você ajustar um pouco os intervalos de classificação para as três categorias qualitativas (intervalos que eu me defini, mais ou menos arbitrariamente). Nesta perspectiva, recomendar o metascore, principalmente fazendo um exame visual, claramente não é suficiente.

Então, tentarei delimitar entre estes dois usando um método quantitativo .

A idéia é usar a variável Fandango como uma referência negativa e, em seguida, determinar qual variável, da classificação IMDB e do metascore, é a menos correlacionada com ela (eu chamo essas variáveis ??porque elas podem ter valores diferentes – por exemplo, o metascore é uma variável porque leva valores diferentes, dependendo do filme).

Simplesmente calcularemos alguns coeficientes de correlação, e a variável com o menor valor será a minha recomendação (explicarei então como funcionam estes coeficientes de correlação). Mas antes disso, deixe-me justificar brevemente a escolha da variável Fandango como referência negativa.

Os usuários de Fandango adoram filmes demais

Um dos motivos dessa escolha é que a distribuição das classificações de filme de Fandango é a mais estranha daquela de um normal, tendo essa inclinação óbvia para a maior parte do espectro de classificações de filmes.

A outra razão é a nuvem de suspeita em torno de Fandango deixada pela análise de Walt Hickey . Em outubro de 2015, ele também ficou intrigado com uma distribuição similar e descobriu que, no site do Fandango, as classificações numéricas eram sempre arredondadas para a próxima meia-estrela mais alta, e não para a mais próxima (por exemplo, uma classificação média de 4.1 para um filme seria foram arredondados para 4,5 estrelas, em vez de 4,0).

A equipe do Fandango corrigiu o sistema de classificação tendenciosa e disse a Hickey que a lógica de classificação era mais uma "falha de software" em seu site, apontando para um sistema imparcial em seu aplicativo móvel. (Mais sobre isso no artigo de Hickey .) O ajuste mudou alguns parâmetros estatísticos para melhor, mas não o suficiente para me convencer de não trabalhar com a variável Fandango como referência negativa.

É assim que a mudança se parece:

Eu normalizei todos os outros tipos de classificação para combinar o Fandango – eu os converti para um sistema de classificação 0-5 e arredondado os valores convertidos para o 0.5 mais próximo. O acrônimo "FTE" significa FiveThirtyEight, a publicação on-line para a qual Hickey escreve.

Agora, vamos ampliar o Fandango:

As barras azuis representam o ano 2017 e os vermelhos 2015.

Entre o metascore ea classificação IMDB, que é o menos correlacionado com a classificação Fandango?

O menos correlacionado com o rating Fandango é o metascore. Tem um valor de Pearson de 0.38 em relação ao Fandango, enquanto a classificação IMDB tem um valor de 0,63.

Agora deixe-me explicar tudo isso.

À medida que duas variáveis ??mudam, tomando valores diferentes, elas são correlacionadas se houver um padrão correspondente a ambas as mudanças. Medir a correlação simplesmente significa medir a extensão em que existe esse padrão.

Uma das maneiras de realizar esta medida é calcular a r de Pearson. Se o valor for +1.0, significa que existe uma correlação positiva perfeita, e se for -1.0, significa que existe uma correlação negativa perfeita.

A medida em que as variáveis ??estão correlacionadas diminui à medida que o Pearson r se aproxima de 0, tanto do lado negativo quanto do positivo.

Vamos visualizar melhor isso:

As classificações podem ser plotadas em um gráfico. Cada um dos pequenos pontos que juntos compõem as formas acima poderia descrever as classificações de duas variáveis ??(por exemplo, Fandango e IMDB) para um filme específico. Crédito de imagem: Denis Boigelot (fonte: Wikipedia ).

Agora, para colocar a abstração acima em contexto, se compararmos como os valores de dois tipos de classificação mudam – digamos Fandango e IMDB – podemos determinar o grau em que há um padrão correspondente a ambas as mudanças.

Dado os coeficientes de correlação que acabamos de mencionar, há um padrão entre o Fandango e o IMDB em maior extensão do que o Fandango e o metascore. Ambos os coeficientes são positivos e, como tal, a correlação é dita ser positiva, o que significa que, à medida que as classificações do Fandango aumentam, as classificações da IMDB também aumentam, mais do que os metascores.

Dito de outra forma, para qualquer classificação de filme em Fandango, é mais provável que o metascore seja mais diferente do que a classificação IMDB.

O veredicto: use o metascore de Metacritic

Em suma, recomendo verificar o metascore sempre que você procura uma classificação de filme. Veja como funciona e suas desvantagens.

Em poucas palavras, o metascore é uma média ponderada de muitas críticas provenientes de críticos de renome. A equipe Metacritic lê os comentários e atribui cada uma pontuação 0-100, que é então dada um peso, principalmente com base na qualidade e fonte da revisão. Você pode encontrar mais sobre seu sistema de classificação aqui .

Agora, eu só quero apontar algumas desvantagens do metascore:

  • Os coeficientes de ponderação são confidenciais, então você não verá em que medida cada revisão contou no metascore.
  • Você terá um tempo difícil encontrando metascores para filmes menos conhecidos que apareceram antes de 1999, ano em que Metacritic foi criado.
  • Alguns filmes recentes cujo idioma principal não é inglês não estão listados em Metacritic. Por exemplo, os filmes romenos Two Lottery Tickets (2016) e Eastern Business (2016) não estão listados no Metacritic, enquanto eles estão no IMDB, com classificações.

Poucas palavras mais

Para resumir, neste artigo, fiz uma única recomendação de onde procurar uma classificação de filme. Eu recomenda o metascore, com base em dois argumentos: sua distribuição se parece com a mais normal, e é a menor correlação com a classificação Fandango.

Todos os elementos quantitativos e visuais do artigo são reprodutíveis em Python, como é mostrado aqui .

Obrigado por ler! E filme feliz!