Principais fontes abertas de conjunto de dados aberto para análise de dados

WebDataRocks Segue 16 de jul · 8 min ler

A coleta de dados de alta qualidade é um pré-requisito fundamental para iniciar qualquer análise de dados ou projeto de aprendizado de máquina .

No entanto, você pode perceber que procurar por um conjunto de dados realmente instigante pode ser um processo oneroso e, geralmente, implica gastar muito tempo. Para economizar o seu precioso tempo para obter insights dos dados, a equipe WebDataRocks preparou uma lista cuidadosamente selecionada de repositórios gratuitos com dados do mundo real , prontos para impulsionar seu projeto.

Vamos começar a explorá-los!

Socrata OpenData

Um dos maiores e mais poderosos mecanismos de busca , que hospeda milhares de conjuntos de dados sobre finanças , infraestrutura , transporte , meio ambiente , economia e segurança pública . Além disso, todos os conjuntos de dados são categorizados pelo uso de algoritmos de aprendizado de máquina, o que torna essa plataforma ainda mais intrigante.

Tente cavar mais fundo para encontrar aqui os conjuntos de dados mais desafiadores para o seu trabalho.

Os desenvolvedores podem achar útil o fato de que o Socrata OpenData expõe a Discovery API, que apresenta uma maneira poderosa de obter acesso a todos os dados públicos da plataforma. Outro ótimo recurso para desenvolvedores é o fato de que as chamadas de API retornam objetos JSON aninhados que são fáceis de entender e analisar.

Além disso, há muitos exemplos de visualização de dados e tutoriais curtos que permitem explorar dados interativamente com gráficos. Aqui você também pode encontrar wrappers para acessar recursos do Socrata OpenData a partir de várias linguagens do lado do servidor.

Se você quiser se tornar um colaborador, leia o guia do editor para saber como fazer upload de seus dados.

Kaggle

Literalmente, Kaggle é a maior comunidade e plataforma de dados científicos que impressiona com uma diversidade de conjuntos de dados, competições , exemplos de projetos de ciência de dados . Além de propósitos educacionais, oferece a chance de ganhar recompensas financeiras em competições, organizadas pelas empresas líderes que anseiam por entender melhor seus dados.

Mas as competições são mais sobre jornadas para o campo da ciência de dados, em vez de ganhar os primeiros lugares . Você deve definitivamente trazer todas as oportunidades disponíveis para dominar as habilidades necessárias para sua carreira como cientista de dados.

Deve-se notar que este recurso contém principalmente dados limpos, especialmente se for parte do kernel de uma competição. Conjuntos de dados podem ser pesquisados por tags diferentes.

Para experimentar um ambiente competitivo e desafiador e testar seus pontos fortes, você pode tentar participar das seguintes competições abertas :

Ou crie visualizações e modelos ML em torno desses conjuntos de dados :

FiveThirtyEight

Interessado em artigos baseados em dados e gráficos criados por escritores do blog FiveThirtyEight? Dê uma olhada nos dados que estão no centro das visualizações. Você pode fazer o download dos dados dessa coleção de dados on-line ou do repositório do GitHub . Além disso, você pode navegar até o artigo jornalístico em que foi usado.

A maioria das visualizações que você pode encontrar aqui é interativa . E nós encorajamos você a criar sua própria variante da análise e visualização.

Repositório de Aprendizado de Máquina da UCI

Uma plataforma abrangente que hospeda conjuntos de dados para tarefas de aprendizado de máquina por muitos anos. Este é um lugar clássico para iniciar o seu caminho de aprendizado de máquina, que é apoiado pela National Science Foundation . Cada conjunto de dados é bem descrito – você pode verificar sua tarefa padrão, tipos de atributos, tipos de dados e outros recursos. Muitos dos conjuntos de dados são muito pequenos, mas ainda são ótimos para projetos educacionais .

ProPublica

Esta organização sem fins lucrativos americana é reconhecida pelo notório jornalismo investigativo . Mas também é conhecido por oferecer um repositório de dados versátil que abrange temas de saúde, justiça criminal, educação, política, negócios, transporte e finanças . Além disso, é atualizado com freqüência.

A coleção contém conjuntos de dados pagos e gratuitos . Conjuntos de dados pagos, por sua vez, estão disponíveis sob licenças acadêmicas, comerciais, de estudantes e de jornalistas.

O ProPublica também se preocupa com as formas de acessar dados, expondo cinco APIs que simplificam a recuperação de dados.

Yelp

Esteve esperando pela oportunidade de criar seu projeto, mas não sabia como começar?

Então você não pode perder uma oportunidade perfeita de melhorar suas habilidades de pesquisa e análise no Yelp – mais uma plataforma que fornece dados prontos para uso e incentiva tanto os recém-chegados quanto os cientistas de dados qualificados a resolver problemas.

Não só você pode participar dos desafios, mas também ganhar prêmios em dinheiro.

Depois de baixar e brincar com os dados, como próximo passo, você pode enviar seu projeto preenchendo o formulário de inscrição. Pode ser apresentado em qualquer formato – um artigo, apresentação de vídeo, site, blog, etc. – qualquer coisa que confirme o uso dos dados.

Não passe por este lugar – não é só para estudantes. Sinta-se à vontade para participar de desafios e descobrir seus talentos ocultos.

InsideAirbnb

Um serviço de dados criado e mantido pela empresa Airbnb . Ele hospeda uma coleção exclusiva de dados do Airbnb, que é categorizada por regiões e países. Você pode procurar dados para sua cidade específica e explorar relatórios perspicazes com visualizações criativas. Mas recomendamos que você obtenha os dados e explore-os mais detalhadamente com suas ferramentas favoritas.

data.world

Sendo uma comunidade aberta para desenvolvedores, o data.world é um verdadeiro tesouro para todos que são apaixonados pela análise de dados . Mais de 450 conjuntos de dados para todos os gostos e finalidades estão disponíveis gratuitamente na coleção . A maioria deles está perto do mundo moderno e, a partir de agora, exige limpeza. Como a limpeza de dados é uma etapa importante de qualquer projeto de ciência de dados , aqui você tem a oportunidade de praticar essas habilidades.

Os conjuntos de dados cobrem finanças, crime, economia, educação, censos, educação, meio ambiente, energia, esportes, NASA e muito mais tópicos.

Além disso, você pode até contribuir com seus próprios dados.

Inscrever-se é fácil – basta usar sua conta do GitHub para se registrar e ter acesso a todos os conjuntos de dados.

Trabalhar com dados também é fácil – você pode escrever consultas SQL através da interface do site, usar SDKs para Python ou R ou simplesmente baixar o arquivo de dados.

Hub de dados: coleções

Um rico catálogo de dados contendo conjuntos de dados sobre vários tópicos: econômico, clima, educação, logística, saúde e muito mais. Na página do conjunto de dados, há visualizações incorporadas construídas com Plotly , que fornecem uma visão geral rápida das tendências de dados.

Se você não consegue encontrar os dados que está procurando, pode até mesmo fazer um pedido gratuito para eles.

Você ficará impressionado com uma variedade de meios para integrar o conjunto de dados à ferramenta que está usando. Existem trechos de código que mostram como usar dados com R , Pandas , Python , JavaScript , cURL e data-cli . Além disso, você pode simplesmente baixar conjuntos de dados CSV ou JSON .

Quandl

Ele se posiciona como uma plataforma a não perder com dados financeiros e econômicos que ajudam a impulsionar estratégias baseadas em dados. Aqui você pode encontrar conjuntos de dados gratuitos e pré-pagos. Para recuperação de dados, o Quandl fornece uma API de livre uso que atua como uma única interface. Além disso, você pode acessar dados do Python , R , Ruby com a ajuda de módulos e pacotes. O add-in para o Excel também está disponível.

Conjuntos de dados da NASA

Entusiasta sobre projetos relacionados ao espaço ?

Então este repositório é um verdadeiro achado para você. Ele contém dados de Astrofísica , Heliofísica , Exploração do Sistema Solar e Recursos de Imagem .

Wikipedia

Surpreso por ver a Wikipedia na lista? Sim, você pode usá-lo não apenas para fins educacionais. A Wikipedia também oferece maneiras de baixar e consultar dados . Você pode ler mais sobre eles neste guia .

O Banco Mundial

Um enorme repositório que fornece acesso livre a dados de desenvolvimento global . Você pode pesquisar conjuntos de dados por países, regiões e indicadores econômicos ou demográficos.

Com a ajuda de ferramentas de visualização de dados on-line, você pode explorar dados interativamente usando gráficos, tabelas, mapas, criar relatórios rapidamente, estilizá-los, compartilhá-los e incorporá-los. Conjuntos de dados estão disponíveis como arquivos CSV , XML e Excel .

D ata.gov

Um repositório de conjuntos de dados públicos de agências do governo dos EUA. Os conjuntos de dados relacionados ao clima, consumidores, educação, ecossistemas, energia, finanças, manufatura, ciência estão ao seu alcance.

Conjuntos de dados estão disponíveis para uso público, mas às vezes você tem que concordar em licenciar contratos antes de baixar e usar dados.

Outra grande coisa é que você pode enviar histórias de dados para compartilhar com o mundo suas formas de usar dados. Há também muitos desafios que você pode participar.

Pew Research Center

O Pew Research Center é conhecido por publicar relatórios de pesquisas e vários tipos de análise. Seus pesquisadores criam conjuntos de dados que estão no centro dos relatórios disponíveis para o público. Muitos dos conjuntos de dados são fornecidos como arquivos .sav, portanto, você deve saber como usar o SPSS ou R. Com eles, você poderá descobrir tendências religiosas, políticas, sociais, jornalísticas e de mídia.

Pesquisa de conjunto de dados do Google

A Pesquisa de conjunto de dados é um poderoso mecanismo de pesquisa que expõe uma interface conveniente através da qual você pode acessar milhões de conjuntos de dados de todo o mundo . Esse produto relativamente novo lançado pelo Google já foi preferido por cientistas, jornalistas de dados e estudantes que precisam encontrar dados científicos, sociais, ambientais ou governamentais . Uma enorme vantagem é que os volumes dos dados estão crescendo rapidamente.

Depois de consultar os dados, você verá a lista de repositórios, incluindo os acadêmicos, a partir dos quais você pode fazer o download.

Se você deseja publicar seus dados, siga estas diretrizes técnicas e de qualidade, que ajudam a entender como descrever os conjuntos de dados enviados.

Em geral, a Pesquisa de conjunto de dados do Google lida bem com o objetivo de tornar os dados mais acessíveis para todos.

Mas e se você quiser praticar a análise de big data ?

Conjuntos de dados públicos do Google

Visite o catálogo do programa Cloud Datasets Public para encontrar conjuntos de dados grandes e surpreendentes. Todos eles são armazenados no BigQuery e podem ser acessados por meio do programa Cloud Data Setsets. Embora você precise pagar pelas consultas que você realiza nos dados, você pode fazer uso das primeiras 1 TB de consultas gratuitas.

Conjuntos de dados públicos da AWS

Você pode pesquisar conjuntos de dados da plataforma Amazon Web Services por meio do Registro de dados abertos . Conjuntos de dados estão disponíveis no domínio público. Aqui você também pode encontrar muitos casos de uso fascinantes que podem inspirá-lo a iniciar novos projetos científicos ou empresariais . Eles cobrem detalhes sobre o uso de dados pelas organizações, implementando sistemas recomendados, prevendo preços de ações, etc.

Além disso, você pode fazer sua contribuição pessoal compartilhando dados na AWS.

Para começar a trabalhar com dados, basta fazer o download ou obter acesso a partir da nuvem com a ajuda do EC2 ou do Hadoop.

Torrents Acadêmicos

Um sistema distribuído que contém mais de 45 TB de dados para pesquisa. Preste atenção aos termos da licença – a maioria dos conjuntos de dados pode ser usada para fins não comerciais e educacionais.

Aqui está a lista de alguns conjuntos de dados populares: