Engenharia de uma experiência de qualidade de estúdio com áudio de alta qualidade na Netflix

Blog da Tecnologia Netflix em Netflix TechBlog Segue 1 de maio · 9 min ler

por Guillaume du Pontavice, Phill Williams e Kylee Peña (em nome de nossas equipes de Algoritmos de Fluxo, Algoritmos de Áudio e Tecnologias Criativas)

Lembre-se da sequência épica de abertura de Stranger Things 2 ? A emoção daquela perseguição de carro através de Pittsburgh não apenas introduziu um novo conjunto de mistérios, mas nos devolveu a um mundo amado e perigoso ao lado de Dustin, Lucas, Mike, Will e Onze. Talvez você tenha sido uma das milhões de pessoas que assistiram em HDR, experimentando as imagens brilhantes, como era para ser visto pelos criativos que sonharam.

Imagine esta cena sem o som. Mesmo tirando uma parte da trilha sonora – a brilhante partitura synth-pop ou a paisagem sonora perfeitamente combinada de uma perseguição em alta velocidade – a história é quase tão emocionante quanto emocional?

A maioria das conversas sobre a qualidade da transmissão se concentra no vídeo . Na verdade, a Netflix foi responsável pela maior parte da tecnologia de vídeo que impulsiona essas conversas, desde melhorias visuais de qualidade, como 4K e HDR, até tecnologias de bastidores que tornam a experiência de streaming melhor para todos, como streaming adaptável, complexidade codificação com base e AV1.

Estamos muito orgulhosos das melhorias que trouxemos para a experiência de vídeo, mas o foco naquelas faz com que seja fácil ignorar a importância do som , e o som é tão importante para o entretenimento quanto o vídeo. Variações no som podem ser extremamente sutis, mas o impacto em como o espectador percebe uma cena de maneira diferente é frequentemente mensurável. Por exemplo, você já assistiu a um programa de TV em que o vídeo e o áudio estavam um pouco fora de sincronia?

Entre aqueles que entendem a natureza vital do som estão os irmãos Duffer. No final de 2017, recebemos alguns comentários críticos dos irmãos sobre o mix de áudio Stranger Things 2 : em algumas cenas, havia uma sensação reduzida de onde os sons estão localizados no canal de 5.1 canais, bem como a degradação audível das altas frequências.

Nossa equipe de engenharia e especialista em som da Creative Technologies uniram forças para resolver rapidamente o problema, mas uma conversa maior sobre áudio de alta qualidade continuou. Os mixes de séries estavam ficando mais ousados e mais cinematográficos com níveis apertados entre elementos de diálogo, música e efeitos. As escolhas criativas testaram cada vez mais os limites da nossa qualidade de codificação. Precisávamos apoiar melhor essas escolhas.

Na Netflix, trabalhamos duro para levar um ótimo áudio para nossos membros. Começamos a transmitir áudio surround 5.1 em 2010 e começamos a transmitir Dolby Atmos em 2016 , mas queríamos trazer um som com qualidade de estúdio para nossos membros em todo o mundo. Queremos que sua experiência seja brilhante, mesmo se você não estiver ouvindo com um sistema de home theater de última geração. Assim como apoiamos iniciativas como o HDR e o Modo Calibrado da Netflix para manter a intenção criativa no streaming de imagens , gostaríamos de fazer o mesmo para o som. É por isso que desenvolvemos e lançamos áudio de alta qualidade.

Para saber mais sobre as pessoas e inspiração por trás desse esforço, confira este vídeo . Neste blog de tecnologia, vamos nos aprofundar no que é o áudio de alta qualidade, como o entregamos aos membros em todo o mundo e por que ele é tão importante para nós.

O que queremos dizer com som de “qualidade de estúdio”?

Se você já esteve em um estúdio de gravação profissional, provavelmente notou a diferença em como as coisas soam. Uma razão para isso é que os arquivos usados nas sessões de masterização são de 24 bits e 48 kHz com uma taxa de bits de cerca de 1 Mbps por canal. Os mixes de estúdio são descomprimidos, e é por isso que os consideramos a versão "master".

Nosso recurso de som de alta qualidade não é sem perdas, mas é perceptivelmente transparente . Isso significa que, embora o áudio seja comprimido, ele é indistinguível da fonte original. Com base em testes internos de audição, resultados de testes de escuta fornecidos pela Dolby e estudos científicos, determinamos que, para Dolby Digital Plus e acima de 640 kbps, a qualidade de codificação de áudio é perceptualmente transparente. Além disso, estaríamos enviando arquivos que possuem uma taxa de bits maior (e ocupam mais largura de banda) sem trazer qualquer valor adicional à experiência de audição.

Além de decidir 640 kbps – uma taxa de compactação de 10: 1 quando comparado a um mestre de estúdio de 24 bits de 5.1 canais – foi o limiar perceptualmente transparente para áudio, montamos uma escada de bitrate para áudio de 5.1 canais variando de 192 até 640 kbps. Isso varia de áudio "bom" a "transparente" – não há experiências de áudio ruins quando você transmite!

Ao mesmo tempo, revisitamos nossas taxas de bits Dolby Atmos e aumentamos a maior oferta para 768 kbps. Esperamos que essas taxas de bits evoluam com o tempo à medida que nos tornamos mais eficientes com nossas técnicas de codificação.

Nosso som de alta qualidade é uma ótima experiência para nossos membros, mesmo que eles não sejam audiófilos. O som ajuda a contar a história subconscientemente, moldando nossa experiência através de sinais sutis como a nitidez de um toque de telefone ou a maneira como um bando de pássaros pode aumentar a ansiedade em uma cena. Embora as variações no som possam ter nuances, o impacto na experiência de visualização e audição é frequentemente mensurável.

E, talvez, acima de tudo, nosso som de "qualidade de estúdio" é fiel ao que os mixers estão criando no palco de mixagem. Por muitos anos no setor de cinema e televisão, os criativos passavam dias no palco aperfeiçoando o mix apenas para degradá-lo significativamente no momento em que era transmitido para os espectadores. Às vezes, pistas sonoras críticas podem até ser perdidas em detrimento da história. Ao fornecer um som com qualidade de estúdio, estamos preservando a intenção criativa do palco de mixagem.

Fluxo Adaptativo para Áudio

Desde que começamos a transmitir, usamos streaming de áudio estático a uma taxa de bits constante. Essa abordagem seleciona a taxa de bits de áudio com base nas condições da rede no início da reprodução. No entanto, passamos anos otimizando nosso mecanismo de streaming adaptável para vídeo, por isso sabemos que o streaming adaptável tem benefícios óbvios. Até agora, usamos somente streaming adaptável para vídeo.

O fluxo adaptativo é uma tecnologia projetada para fornecer mídia ao usuário da maneira mais ideal para sua conexão de rede. A mídia é dividida em vários segmentos pequenos (pedaços) e cada parte contém alguns segundos de dados de reprodução. Mídia é fornecida em várias qualidades.

O objetivo de um algoritmo de streaming adaptativo é fornecer a melhor experiência geral de reprodução – mesmo sob um ambiente restrito. Uma excelente experiência de reprodução deve fornecer a melhor qualidade geral, considerando áudio e vídeo, e evitar a falta de buffer, o que leva a um evento de rebuffering – ou interrupção de reprodução.

Ambientes restritos podem ser causados por alterações nas condições da rede e limitações de desempenho do dispositivo. A transmissão adaptativa deve levar tudo isso em consideração. Proporcionar uma excelente experiência de reprodução é difícil.

Vamos primeiro observar como o streaming de áudio estático emparelhado com vídeo adaptável opera em uma sessão com condições de rede variáveis – nesse caso, uma queda repentina de taxa de transferência durante a sessão.

O gráfico superior mostra a taxa de bits de áudio e vídeo, juntamente com a taxa de transferência de rede disponível. A taxa de bits de áudio é fixa e foi selecionada no início da reprodução, enquanto a taxa de bits do vídeo varia e pode se adaptar periodicamente.

O gráfico inferior mostra a evolução do buffer de áudio e vídeo: se formos capazes de preencher o buffer mais rapidamente do que reproduzimos, nosso buffer aumentará. Se não, nosso buffer irá encolher.

Na primeira sessão acima, o algoritmo de streaming adaptativo para vídeo reagiu à queda da taxa de transferência e conseguiu estabilizar rapidamente o nível do buffer de áudio e vídeo, diminuindo a taxa de bits do vídeo.

No segundo cenário abaixo, sob as mesmas condições de rede, usamos uma taxa de bits de áudio estática de alta qualidade no início da sessão.

Nosso streaming adaptativo para lógica de vídeo está reagindo, mas, nesse caso, o throughput disponível está se tornando menor que a soma da taxa de bits de áudio e vídeo, e nosso buffer começa a drenar. Isso acaba levando a um rebote.

Nesse cenário, a taxa de bits do vídeo caiu abaixo da taxa de bits de áudio, o que pode não fornecer a melhor experiência de reprodução.

Esse exemplo simples destaca que o streaming de áudio estático pode levar a experiências de reprodução abaixo do ideal, com condições de rede flutuantes. Isso nos motivou a usar o streaming adaptável para áudio.

Ao usar streaming adaptável para áudio, permitimos que a qualidade do áudio seja ajustada durante a reprodução para os recursos de largura de banda, assim como fazemos para o vídeo.

Vamos considerar uma sessão de reprodução com exatamente as mesmas condições de rede (uma queda súbita no rendimento) para ilustrar o benefício do streaming adaptável para áudio.

Nesse caso, podemos selecionar uma taxa de bits de áudio mais alta quando as condições da rede o suportarem, e podemos desativar com facilidade a taxa de bits de áudio e evitar um evento de rebobfer mantendo saudáveis níveis de buffer de áudio e vídeo. Além disso, conseguimos manter uma taxa de bits de vídeo mais alta quando comparada ao exemplo anterior.

Os benefícios são óbvios neste caso simples, mas estendê-lo ao nosso amplo ecossistema de streaming foi outro desafio. Havia muitas perguntas que precisávamos responder para avançar com o streaming adaptável para áudio.

E quanto ao alcance do dispositivo? Temos centenas de milhões de dispositivos de TV no campo, com diferentes perfis de CPU, rede e memória, e áudio adaptável nunca foi certificado. Esses dispositivos suportam até a troca de fluxo de áudio?

  • Tivemos que avaliar isso testando a comutação de áudio adaptativa em todos os dispositivos compatíveis com o Netflix.
  • Também adicionamos testes de áudio adaptativos em nosso processo de certificação para que cada novo dispositivo certificado possa se beneficiar dele.

Uma vez que soubemos que o streaming adaptável para áudio era viável na maioria dos nossos aparelhos de TV, tivemos que responder às seguintes perguntas ao projetarmos o algoritmo :

  • Como podemos garantir que podemos melhorar a qualidade subjetiva do áudio sem degradar a qualidade do vídeo e vice-versa?
  • Como poderíamos garantir que não introduziríamos novos reforços ou aumentaríamos o atraso de inicialização com áudio de alta qualidade?
  • Como poderíamos garantir que esse algoritmo manipulará com graça dispositivos com diferentes características de desempenho?

Respondemos a essas perguntas por meio de experimentos que levaram a um ajuste fino do streaming adaptativo para o algoritmo de áudio, a fim de aumentar a qualidade do áudio sem degradar a experiência de vídeo. Após um ano de trabalho, pudemos responder a essas perguntas e implementar streaming de áudio adaptativo na maioria dos aparelhos de TV.

Desfrutando de uma experiência de qualidade superior

Usando nossos testes de audição e dados científicos para escolher uma taxa de bits “transparente” ideal e projetar um algoritmo de áudio adaptável que pudesse atendê-lo com base nas condições da rede, conseguimos ativar esse recurso em uma ampla variedade de dispositivos com diferentes CPUs , rede e perfis de memória: a grande maioria de nossos membros usando 5.1 deve poder desfrutar de um novo áudio de alta qualidade.

E isso não terá nenhum impacto negativo na experiência de streaming. A comutação adaptável da taxa de bits ocorre perfeitamente durante uma experiência de streaming, com as taxas de bits disponíveis variando entre boas e transparentes, portanto você não deve notar uma diferença além de um melhor som. Se as condições da sua rede forem boas, você receberá o melhor áudio possível e, agora, provavelmente soará como no palco de mixagem. Se a sua rede tiver um problema – sua irmã iniciar um download enorme ou seu gato desconectar seu roteador -, nosso fluxo adaptável o ajudará.

Após anos aperfeiçoando nossa comutação de vídeo adaptável, estamos entusiasmados com o fato de que uma abordagem semelhante pode permitir que o som com qualidade de estúdio chegue às residências dos membros, garantindo que todos os detalhes do mix sejam preservados. Combinando exclusivamente a tecnologia criativa com as equipes de engenharia da Netflix, conseguimos não apenas solucionar um problema, mas também usar esse problema para melhorar a qualidade do áudio de milhões de membros em todo o mundo.

Preservar a intenção criativa original das pessoas trabalhadoras que fazem shows como Stranger Things é uma prioridade, e sabemos que isso aumenta sua experiência de assistir e ouvir por muitos outros momentos de alegria. Se você caiu no Upside Down ou está sendo perseguido pelo Demogorgon, prepare-se para uma experiência de som como nunca antes.