Acha que precisa de um painel? Você deve construir um Notebook em vez disso.

Mahdi Karabiben Blocked Unblock Seguir Seguindo 3 de janeiro Foto por rawpixel no Unsplash

Depois de se estabelecerem como um componente-chave do modelo padrão de Business Intelligence durante os primeiros anos do milênio, os painéis foram rapidamente adotados pela maioria das empresas como a principal ferramenta para apresentar insights e indicadores orientados a dados.

Quando o Hadoop foi introduzido em 2007, seu lançamento foi seguido por um conjunto de tecnologias de Big Data que mudaram radicalmente como as coisas são feitas por trás das cortinas. Eles permitiram o paralelismo em uma escala inimaginável. Essas mudanças foram, por um longo período, limitadas ao armazenamento de dados e processamento de dados. Alterar a forma como os usuários finais acessavam os dados parecia uma etapa desnecessária, porque os painéis ainda estavam fazendo um bom trabalho.

Em uma era de Big Data que mudou completamente o modo como as empresas processam seus dados, os painéis de controle conseguiram se manter o padrão de fato para entender as quantidades espantosas de dados produzidos diariamente. A maioria das empresas que oferecem soluções de painéis rapidamente adaptou seus produtos às tecnologias de Big Data. Eles também ofereceram conectores que permitiram que os painéis permanecessem como a ferramenta indiscutível quando se trata de entender os dados.

Mas com as contínuas mudanças e melhorias nas tecnologias padrão de Big Data acontecendo em um ritmo impressionante, talvez seja hora de atualizar o Big Data User Experience ?

O problema com os painéis: você está sempre um passo atrás

Quando começaram a ser integrados em pilhas de tecnologia na virada do século, os painéis de controle responderam a uma necessidade clara e coerente: apresentar KPIs e insights orientados por dados que oferecem respostas a perguntas estabelecidas. Eles eram o portal para os dados da empresa e permitiam que pessoas com várias funções e precisassem entender o que os dados têm a dizer. Em essência, os painéis foram introduzidos pela primeira vez para democratizar a descoberta de dados .

Mas na virada do século, os fluxos de dados eram muito estruturados, os dados não tinham muito a dizer e a gama de perguntas a serem feitas era limitada.

Isso não é mais o caso. Com o crescimento exponencial dos dados sendo produzidos diariamente, o valor desse novo ouro negro atinge novos máximos todos os dias. Os volumes de dados disponíveis para exploração nesta era do Big Data não oferecem apenas respostas para um conjunto específico de perguntas. Eles oferecem perguntas que você ainda não pensou em perguntar. Isso levou ao aumento da exploração de dados , com os cientistas de dados tentando extrair o máximo de valor possível dos dados.

Confiar nos painéis para visualizar e extrair valor de seus dados significa que você precisa usar outra tecnologia (geralmente, cadernos ) para explorá-la e decidir o que pode ser acessado por meio de seus painéis. Tal mecanismo significa que o painel vem sempre em uma segunda fase de extrair valor dos dados. Nessa época em que as quantidades de dados disponíveis permitem um número infinito de possibilidades quando se trata de exploração de dados, nenhum painel pode ser suficiente para extrair todo o valor que seus dados oferecem.

Trabalhar com esse mecanismo de duas etapas significa que a colaboração entre diferentes funções permanece limitada. Isso ocorre porque as arquiteturas de dados se tornam muito complexas devido ao número de tecnologias usadas pelos diferentes especialistas em dados.

Essa cadeia de pessoas que usa diferentes tecnologias para diferentes necessidades significa que, para adicionar algumas informações a um painel, um analista de dados precisa esperar que um cientista de dados trabalhe nos dados por meio de um bloco de anotações. Por sua vez, o cientista de dados pode precisar esperar que um engenheiro de dados ofereça os dados em uma determinada estrutura por meio de um script. E lembre-se – ao longo de todo esse processo demorado, o valor dos dados continua diminuindo.

Vários provedores de painéis tentaram integrar os recursos de exploração de dados em suas plataformas, com o Tableau oferecendo um impressionante conector Spark que permite executar tarefas do Spark SQL diretamente do painel. Ainda assim, as capacidades permanecem limitadas e a interatividade é apenas parcial, o que deixa o usuário final sempre um passo atrás.

Esteja você usando o Kibana, o Tableau ou o Qlikview, seu painel pode oferecer informações valiosas sobre seus dados. O problema com essas tecnologias é que elas foram construídas com a descoberta de dados em mente. E por causa disso, eles negligenciam um elemento-chave tornado possível em grande escala nesta era do Big Data: a exploração de dados .

Como os fluxos de dados continuam crescendo exponencialmente, dedicar o portal principal aos seus dados apenas para insights significa que você está lendo apenas a primeira página de um livro muito interessante.

Notebooks e como eles levam a interatividade a um nível completamente novo

Como mencionado acima, os notebooks têm sido a ferramenta padrão para a exploração de dados nos últimos anos. Desde o lançamento do projeto Jupyter em 2014, e através do conjunto de funcionalidades que ofereceu além do que já estava disponível via IPython, os notebooks atraíram os cientistas de dados como uma ferramenta ideal de exploração de dados graças principalmente a um conceito chave: interatividade .

Graças aos kernels (dentro do ecossistema Jupyter) e aos intérpretes (dentro do Apache Zeppelin), os notebooks permitem que você explore seus dados através de uma infinidade de tecnologias de processamento de Big Data. Eles então oferecem acesso imediato aos dados através de módulos de visualização integrados e mecanismos de saída. Reunir esses dois recursos na mesma ferramenta é a chave para usar essa ferramenta para descoberta e exploração de dados.

Os notebooks não são apenas uma ferramenta que permite o acesso direto aos dados, mas também a interatividade completa. Eles desfocam completamente a linha que separa os cientistas de dados e os analistas de dados e permitem que as pessoas com essas duas funções colaborem juntas sem problemas.

Isso funciona perfeitamente graças ao poderoso protocolo em que os notebooks confiam e ao seu principal bloco de construção, células (parágrafos no Zeppelin). Ao oferecer vários tipos de células (para código e texto), os notebooks permitem uma colaboração eficiente.

Para mostrar sua eficiência em comparação com os painéis, voltemos ao cenário do qual falamos anteriormente. Em uma arquitetura baseada em notebook, quando um analista de dados precisa de certas percepções dentro de um bloco de notas, o engenheiro de dados pode adicionar uma célula de código na qual manipulam os dados por meio da tecnologia adequada de processamento de dados. Em seguida, o cientista de dados usa esses dados em outra célula de código para extrair as informações desejadas e oferecer a saída para o analista de dados. Tudo isso acontece sem que nenhum desses três especialistas em dados deixem o bloco de anotações.

Em uma era em que o Fast Data é a norma, extrair valor de seus dados por meio de um pipeline estruturado usando ferramentas diferentes para cada etapa não é mais um padrão sustentável. Os dados que chegam por meio de um fluxo de dados em tempo real não estruturado podem oferecer informações valiosas quando usados para processos em lote. Mas oferece ainda mais valor quando é analisado progressivamente por meio de painéis quase interativos em tempo real e interativos (ou seja, notebooks) que oferecem acesso completo aos dados brutos e visualizações sofisticadas.