O Ponto de Coleta

As questões conceituais, práticas e éticas em torno de "grandes dados" e dados em geral começam no momento da coleta de dados. Particularmente quando os dados dizem respeito a pessoas, não é dada atenção suficiente às realidades enredadas dentro desse momento significativo e se espalhando para fora disso.

Eu tento fazer algum desdobramento aqui, através de cinco teses em torno de coleta de dados – pontos que merecem ser lembrados, comunicando, pensando, mantendo em mente e tendo em mente, se você tiver alguma coisa a ver com dados diariamente (leia: todos de nós ) e queremos fazer os dados de forma responsável.

CC BY-SA 2.0 – foto licenciada de Lynn Dombrowski .

1. Os conjuntos de dados são os resultados dos seus meios de coleta.

É fácil esquecer que as pessoas que coletam um conjunto de dados e como eles optam por fazê-lo, determinam diretamente o conjunto de dados.

Um exemplo ilustrativo pode ser encontrado nas estatísticas de quantos crimes de ódio foram cometidos nos Estados Unidos em 2012. De acordo com o FBI Uniform Crime Reporting Program (UCR), o número foi de 5,796 . No entanto, o Bureau of Statistics do Departamento de Justiça informou 293.800 crimes de ódio.

O motivo da variação foi simples. O URC reúne dados que são divulgados voluntariamente por agências de aplicação da lei em todo o país. O Bureau of Statistics, por outro lado, distribui o National Crime Victimization Survey, que coleta dados de vítimas de crimes de ódio. O resultado é um levantamento mais transparente e inclusivo.

Mesmo conjunto de dados, dois meios diferentes de coleta, dois resultados extremamente diferentes. O que eles mostram é um fato importante que devemos ter em mente: não há objetividade pura codificada em conjuntos de dados. Cada um é o resultado de uma série de processos humanos e decisões que afetam, de várias maneiras, os dados que eles pretendem reportar. Nesse sentido, o momento da coleta de dados começa antes que qualquer dado seja realmente produzido.

2. À medida que coletamos mais dados, priorizamos coisas que se encaixam nos padrões de coleta.

Ou como Rob Kitchin e Martin Dodge dizem em Code / Space , "O efeito de abstrair o mundo é que o mundo começa a se estruturar na imagem do capta e do código". Os dados emergem de um mundo cada vez mais mediado por software , e o software prospera em abstração. Aplique as variações individuais em favor de tipos e modelos.

À medida que abstraimos o mundo, priorizamos abstrações do mundo. Quanto mais olhamos para dados para responder às nossas grandes questões (em áreas como policiamento, segurança e segurança), mais incentivos temos para moldar o mundo em uma entrada que se encaixa em um algoritmo. Nossa necessidade de gerar coisas que alimentam um modelo soa verdadeira, mesmo nos casos em que os limites desordenados das experiências não podem ser ordenadamente categorizados em bits e bytes, ou facilmente obtidos das tabelas através de consultas.

Os dados biométricos são um excelente exemplo disso. As tecnologias de autenticação de impressões digitais e os scanners de íris apontam para um sistema onde os indivíduos são identificados de maneira única através de métricas e dados. Para que isso funcione, as pessoas em si devem ser conceitualizadas cada vez mais como legíveis por máquina.

3. Os conjuntos de dados revelam o raciocínio para a sua coleta.

O Spotify pode apresentar uma lista de razões pelas quais o acesso a fotos, locais, microfones e listas de contatos dos usuários pode melhorar a experiência de transmissão de música. Mas as razões pelas quais eles decidem que essas formas de dados podem ser úteis podem ser menos importantes do que o fato de terem os dados em si. Isso ocorre porque as necessidades ou desejos que influenciam as decisões para coletar algum tipo de dados muitas vezes desaparecem, enquanto os dados produzidos como resultado dessas decisões têm o potencial de viver por muito mais tempo. Os dados são capazes de mudar e mudar de acordo com contextos culturais específicos e de desempenhar papéis diferentes do que eles poderiam ter inicialmente sido destinados.

Em última análise, a questão da intenção por trás da coleção ou geração de um conjunto de dados pode ser tornada irrelevante. Pensar no momento da coleta pode revelar a distância entre ele e o uso dos dados. E muitas vezes é muito mais crítico pensar nos potenciais e possibilidades que envolvem o que pode ser feito com os dados coletados.

4. Corolário: especialmente combinados, os conjuntos de dados revelam muito mais do que o pretendido.

Às vezes, não conseguimos perceber que os conjuntos de dados, tanto por conta própria como combinados com outros, podem ser usados ​​para fazer muito mais do que eles foram originalmente destinados. Você pode fazer inferências a partir de um conjunto de dados que resultam em conclusões em domínios completamente diferentes. O Facebook, ao ter enormes quantidades de dados nas pessoas e suas redes, poderia fazer hipóteses razoáveis ​​quanto às orientações sexuais das pessoas.

As pessoas que trabalham com dados conhecem isso intimamente, mas muitas vezes pode ser difícil ver as conexões entre a coleção de uma coisa e a inferência de outra coisa. Infelizmente, os efeitos dessas conexões podem se sentir muito forte. Como diz Bruce Schneier , "os dados que estamos dispostos a compartilhar podem implicar conclusões que não queremos compartilhar".

5. A coleta de dados é uma transação que é o resultado de uma relação invisível.

Este é um quadro – conectado ao meu primeiro ponto – útil para entender como pensar sobre a coleta de dados no todo:

Todo conjunto de dados envolvendo pessoas implica assuntos e objetos, aqueles que coletam e aqueles que compõem o coletado. É imperativo lembrar que em ambos os lados temos seres humanos. Eu aponto isso para não por motivos esponjosos relacionados ao humanismo ou ao design centrado no ser humano, mas porque o poder surge de hierarquias, interações e dinâmicas. O trabalho abaixo da superfície de um determinado conjunto de dados é unido aos motivos e meios que o criaram e os relacionamentos que correm por esses motivos e meios. Se podemos ter isso em mente, estamos melhor posicionados para ver os dados como um resultado intermediário, uma peça em um processo maior, algo tão orientado para o ser humano quanto sistemático. O desafio é que tenhamos em mente os dois aspectos da coleta de dados, para ver tensões e tendências tanto sistemáticas quanto humanas.

O ponto de coleta de dados é um site único para descompactar mudanças, abusos, injustiças, preconceitos e potencialidades. Não podemos falar sobre dados responsáveis ​​sem falar sobre o momento em que os dados se tornam dados.

Texto original em inglês.