Dados relacionados à base do CNPJ liberado pela Receita Federal do Brasil

Para encontrar dados sobre empresas inscritas no Cadastro Nacional de Pessoas Jur√≠dicas ‚Äď CNPJ, os seguintes recursos s√£o √ļteis.

Fontes oficiais

As fontes prim√°rias de dados s√£o os dados abertos disponibilizados pela Receita Federal do Brasil ‚Äď RFB, contendo os dados cadastrais do CNPJ e s√≥cios de empresas.

Apesar de ser a fonte oficial, os servidores oferecem downloads extremamente lentos, o tamanho dos arquivos é muito grande (cerca de 85Gb) e o layout dos arquivos é difícil de se usar (os campos são posicionais, em vez de usar um separador, como habitual no formato CSV).

Também é fonte oficial a página dos mesmos dados no portal dados.gov.br, entretanto, a RFB se recusa a atualizar para onde os links apontam, os quais estão quebrados há anos.

Fontes tratadas

Algumas fontes secund√°rias de dados s√£o √ļteis por terem sido tratadas em um formato mais f√°cil de usar e disponibilizadas em servidores que propiciam uma maior velocidade de download.

Pacote R ‚Äúqsacnpj‚ÄĚ

Usando a linguagem R, pode-se usar o pacote disponiblizado pelo @georgevbsantiago:

Mesmo que você não pretenda usar R, o repositório ainda contém links para download da mesma base nos formatos SQLite e CSV.

Brasil.io

A plataforma Brasil.io, fundada pelo @turicas, possibilita o acesso a esses dados de diversas formas:

Outras ferramentas

Ferramentas diversas para usar com esses dados. Por exemplo, convers√Ķes de formatos de dados, servir os dados do CNPJ em forma de API, visualizar os dados, etc.

API ‚ÄúMinha Receita‚ÄĚ

O @cuducos criou uma API que você pode instalar no seu próprio computador e servir os dados do CNPJ

A API tamb√©m est√° dispon√≠vel como servi√ßo no endere√ßo minhareceita.org. Mais informa√ß√Ķes abaixo.

Convers√£o para CSV/SQLite

O F√°bio Serpa criou um utilit√°rio em Python para converter os dados baixados da RFB em formatos mais utiliz√°veis: SQLite e CSV.

Rede CNPJ

Ferramenta de visualização feita pelo @rtom que mostra os dados em forma de grafos, permitindo ver graficamente a relação entre as pessoas jurídicas e os seus sócios, facilitando identificar as redes que se formam entre grupos de empresas e grupos de sócios em comum.

Postagem original

Texto originalmente postado pelo @fbarbalho:

Para quem quiser encontrar dados de CNPJ, as comunidades j√° desenvolveram duas possibilidades bem interessantes. Vide abaixo:

  • https://brasil.io/dataset/documentos-brasil/documents
    Documentos coletados de dados p√ļblicos, a partir dos seguintes datasets: socios-brasil, gastos-diretos, gastos-deputados, eleicoes. Nota: os CPFs foram ofuscados por quest√Ķes de privacidade.

  • https://github.com/georgevbsantiago/qsacnpj
    O objetivo do pacote é tornar os dados do Cadastro Nacional da Pessoa Jurídica (CNPJ) mais acessível, num padrão legível por máquina, para que a Sociedade possa utilizá-los em diversas iniciativas, atividades, projetos etc. Isso se faz necessário porque a Receita Federal publicou a base num formato do tipo fixed width - arquivo de largura fixa, o que requer o prévio tratamento dos dados (com elevado grau de dificuldade técnica e esforço computacional adicional) antes do seu consumo imediato em softwares de análise de dados.

Esta postagem foi editada por @herrmann. Ap√≥s conversar com o Fernando Barbalho, decidimos deixar a postagem original mais organizada, com as informa√ß√Ķes que foram sendo complementadas ao longo do tempo nas respostas subsequentes.

5 Curtidas

A Receita Federal do Brasil lançou uma nova versão da base de empresas/sócios. O @turicas já atualizou as bases no Brasil.io, tanto os arquivos originais quanto os convertidos. Parabéns e obrigado pelo trabalho, @turicas! :partying_face: :tada:

Mais informa√ß√Ķes: https://twitter.com/turicas/status/1197125153047662592

5 Curtidas

@fbarbalho acho que vale linkar o https://github.com/turicas/socios-brasil/ e https://data.brasil.io/dataset/socios-brasil/ em vez do dataset de documentos. Explico: o dataset de documentos foi criado inicialmente para facilitar o trabalho interno do backend do Brasil.IO nas p√°ginas especiais (que listam as informa√ß√Ķes sobre uma pessoa/empresa de todos os datasets dispon√≠veis), por√©m esse dataset se revelou super dif√≠cil de manter por conta do problema complexo de concilia√ß√£o e, com isso, s√≥ conseguirei atualiz√°-lo quando tiver resolvida essa quest√£o. Al√©m disso, nunca foi inten√ß√£o disponibilizar os CPFs completos e, por isso, decidi n√£o disponibiliz√°-lo para download.
Sobre a questão da conciliação, estou trabalhando nela há algum tempo e avancei bastante: https://github.com/turicas/brasil.io/issues/182 (tem vários outros testes num outro repositório que ainda não estão na issue); acho que depois de finalizado, esse trabalho será de bastante utilidade para quem lida com diversas bases de dados envolvendo entidades que possuem mais de um identificador (no caso de pessoas físcias: nome completo, CPF, título de eleitor etc.).

2 Curtidas

√Č importante informar o link tamb√©m da fonte original na RFB:

https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj

Com as ressalvas de que o servidor da Receita √© lento, podendo demorar dias para baixar os arquivos, e que o layout dos arquivos √© dif√≠cil de usar (n√£o √© CSV, e sim de campos com largura fixa). √Č mais f√°cil usar os pacotes da comunidade referenciados acima.

Esse mesmo dataset também está no portal dados.gov.br, mas há anos está com o link quebrado (e não adianta reclamar na ouvidoria, eles não consertam alegando apenas que os dados já estão no outro link, por mais que se argumente que também deveria estar no Portal Brasileiro de Dados Abertos):

1 Curtida

Painel criado através dos dados abertos da receita federal.

3 Curtidas

@Vasata, sensacional esse teu painel! Meus parabéns!

Obrigado Bruno, fique a vontade para usar e compartilhar se quiser.

1 Curtida

O Marcelo Mathias postou no grupo do Telegram o link para uma API criada pelo Eduardo Cuducos (do Serenata) que serve os dados do CNPJ, juntamente com as informa√ß√Ķes do c√≥digo CNAE de atividade da empresa.

Não tem um endereço para consultar a API, mas o código é livre para subir no seu próprio computador ou servidor e usar.

2 Curtidas

Gostaria de apresentar o meu projeto no github https://github.com/rictom/rede-cnpj. √Č uma rotina para visualizar graficamente os v√≠nculos entre cnpjs e s√≥cios da base de dados p√ļblicos da Receita Federal, usando python, flask e javascript. √Č preciso gerar o banco de dados em sqlite pelo script em https://github.com/fabioserpa/CNPJ-full, ou baixar o arquivo sqlite que coloquei no google drive.
Um vídeo demonstrativo está no youtube http://www.youtube.com/watch?v=nxz9Drhqn_I.

4 Curtidas

Muito interessante esse visualizador de redes de sócios de empresas, @rtom! Parabéns e obrigado por compartilhar! :partying_face:

@fbarbalho, nas mensagens subsequentes j√° surgiram muitas outras refer√™ncias √ļteis e importantes. Para facilitar para quem chega aqui buscando informa√ß√Ķes, o que voc√™ acha de sumarizar tudo editando a sua primeira postagem? Se preferir eu posso mesmo posso edit√°-la.

1 Curtida

@rtom me considero um admirador e evangelista dos abertos e achei seu projeto sensacional muito bem estruturado e totalmente didático! tenho estudado muito os dados abertos e criando um base unificada com dados relavantes com o objetivo de atribuir um grau de risco de conformidade legal…

1 Curtida

Estou servindo a base de dados com possibilidade de retorno em JSON.
Caso observe interesse melhorarei o serviço de hospedagem

Base CNPJ

1 Curtida

@rtom Parab√©ns pelo projeto. Muito did√°tico e funcional. A possibilidade de imers√£o nos n√≥s torna o processo explorat√≥rio incrivelmente simples. Senti apenas falta de uma ‚Äúlegenda‚ÄĚ lateral, como as encontradas em mapas cartogr√°ficos, indicando o que √© cada n√≥ (elemento: pessoa, empresa, ‚Ķ). Outro recurso que seria tamb√©m interessante √© uma fun√ß√£o de aumentar o espalhamento entre os n√≥s, ‚Äúreduzir a gravidade‚ÄĚ do conjunto. Penso que algo assim facilitaria a leitura em casos da rede exibida ser muito densa.

Parabéns, ficou sensacional.

Editei a postagem original para deixar mais organizadas as informa√ß√Ķes para servir de refer√™ncia f√°cil para quem encontrar este t√≥pico pela primeira vez.

Sobre a Minha Receita, passo aqui para compartilhar uma novidade: coloquei uma API aberta no ar, ainda como prot√≥tipo para validar se vale a pena manter: minhareceita.org ‚ÄĒ basicamente envie um POST com o campo cnpj para essa URL e vais receber um JSON com a ficha completa do CNPJ.

A documentação está aqui e conto mais do contexto nesse fio :wink:

3 Curtidas

Agrade√ßo pelos coment√°rios e sugest√Ķes. Essa de aumentar o espalhamento deu para implementar. Essas e outras altera√ß√Ķes eu atualizei no github. Tamb√©m atualizei o arquivo sqlite com a base da receita, usando o script do fabioserpa, refer√™ncia 23/11/2020.

2 Curtidas