Para encontrar dados sobre empresas inscritas no Cadastro Nacional de Pessoas Jurídicas – CNPJ, os seguintes recursos são úteis.
Fontes oficiais
As fontes primárias de dados são os dados abertos disponibilizados pela Receita Federal do Brasil – RFB, contendo os dados cadastrais do CNPJ e sócios de empresas.
https://dados.gov.br/dados/conjuntos-dados/cadastro-nacional-da-pessoa-juridica---cnpj
Apesar de ser a fonte oficial, os servidores oferecem downloads extremamente lentos, o tamanho dos arquivos é muito grande (cerca de 85Gb) e o layout dos arquivos é difícil de se usar (os campos são posicionais, em vez de usar um separador, como habitual no formato CSV).
Também é fonte oficial a página dos mesmos dados no portal dados.gov.br, entretanto, a RFB se recusa a atualizar para onde os links apontam, os quais estão quebrados há anos.
https://dados.gov.br/dataset/qsa (link do Internet Archive)
Mais recentemente, entretanto, a Receita Federal optou por excluir o dataset acima no Portal Brasileiro de Dados Abertos, deixando o link acima quebrado, sendo que agora o único meio para encontrar os dados é o seu portal institucional, em uma página difícil de se encontrar para quem não tem o link direto, como deixamos organizado aqui neste tópico.
Fontes tratadas
Algumas fontes secundárias de dados são úteis por terem sido tratadas em um formato mais fácil de usar e disponibilizadas em servidores que propiciam uma maior velocidade de download.
Pacote R “qsacnpj”
Usando a linguagem R, pode-se usar o pacote disponiblizado pelo @georgevbsantiago:
Mesmo que você não pretenda usar R, o repositório ainda contém links para download da mesma base nos formatos SQLite e CSV.
Brasil.io
A plataforma Brasil.io, fundada pelo @turicas, possibilita o acesso a esses dados de diversas formas:
- Download dos dados: https://data.brasil.io/dataset/socios-brasil/
- Repositório no Github: GitHub - turicas/socios-brasil: Captura os dados de sócios das empresas brasileiras na Receita Federal e exporta para um formato legível por humanos
- Consulta via API: Sócios das Empresas Brasileiras - Datasets - Brasil.IO (requer login, mas a criação de conta é gratuita)
Outras ferramentas
Ferramentas diversas para usar com esses dados. Por exemplo, conversões de formatos de dados, servir os dados do CNPJ em forma de API, visualizar os dados, etc.
API “Minha Receita”
O @cuducos criou uma API que você pode instalar no seu próprio computador e servir os dados do CNPJ
A API também está disponível como serviço no endereço minhareceita.org e também na BrasilAPI. Mais informações abaixo.
Conversão para CSV/SQLite
O Fábio Serpa e o @rtom criaram utilitários em Python para converter os dados baixados da RFB em formatos mais utilizáveis: SQLite e CSV.
Rede CNPJ
Ferramenta de visualização feita pelo @rtom que mostra os dados em forma de grafos, permitindo ver graficamente a relação entre as pessoas jurídicas e os seus sócios, facilitando identificar as redes que se formam entre grupos de empresas e grupos de sócios em comum.
Postagem original
Texto originalmente postado pelo @fbarbalho:
Para quem quiser encontrar dados de CNPJ, as comunidades já desenvolveram duas possibilidades bem interessantes. Vide abaixo:
Coleção de CNPJs e CPFs brasileiros - Datasets - Brasil.IO
Documentos coletados de dados públicos, a partir dos seguintes datasets: socios-brasil, gastos-diretos, gastos-deputados, eleicoes. Nota: os CPFs foram ofuscados por questões de privacidade.GitHub - georgevbsantiago/qsacnpj: Pacote que trata e organiza os dados do Cadastro Nacional da Pessoa Jurídica (CNPJ)
O objetivo do pacote é tornar os dados do Cadastro Nacional da Pessoa Jurídica (CNPJ) mais acessível, num padrão legível por máquina, para que a Sociedade possa utilizá-los em diversas iniciativas, atividades, projetos etc. Isso se faz necessário porque a Receita Federal publicou a base num formato do tipo fixed width - arquivo de largura fixa, o que requer o prévio tratamento dos dados (com elevado grau de dificuldade técnica e esforço computacional adicional) antes do seu consumo imediato em softwares de análise de dados.
Esta postagem foi editada por @herrmann. Após conversar com o Fernando Barbalho, decidimos deixar a postagem original mais organizada, com as informações que foram sendo complementadas ao longo do tempo nas respostas subsequentes.