Dados da base do CNPJ disponibilizados pela Receita Federal do Brasil

Todos sabemos da lentidão pra baixar esses arquivos de ‘dados abertos’ relacionado a CNPJ. Pra resolver isso, vejo muita gente indicando API, outros indicando baixar de repositório de terceiros e etc. Mas sobre o maior problema que é a demora pra baixar pode ser resolvido de uma forma que não achei ainda ninguém falando.

Eu até fiz um ‘programinha’ pra isso simples e creio irá ajudar as pessoas que querem baixar de forma rapida os arquivos. Pois bem… Pq não ter um ‘programa’ que quebre os arquivos em várias partes e baixe? Imagina… 100 threads disparada pra cada arquivo? Isso irá quebrar o mesmo em 100 partes e podemos colocar todos pra baixarem junto e quebrados, será bem mais rápido né? Pois é… Eu baixei em menos de um dia todos os arquivos do link http://200.152.38.155/CNPJ/. Então essa é minha opnião pra quem programa fazer o teste. Valeu!

Obs: Digo isso pois tem pessoas que não querem usar API, outras não confiam em repositórios de terceiros e apenas o que elas querem é algo pra baixar de uma forma rápida a partir dos repositórios originais.

Que projeto incrível! Parabéns!

Bom dia.

As bases de receita não estão mais disponiveis nesse link, alguém consegue indicar o link atualizado?

Olá, Leonardo, seja bem vindo!

Parece que mudaram de novo o endereço. Atualizei a primeira postagem do tópico com o link atual.

Talvez tenha a ver com a recente reestruturação do portal de dados abertos que quebrou todos os links. Como de costume em reformulações de portais de governo, não colocaram nenhum redirecionamento a partir dos links antigos e não se importaram em deixar os links quebrados.

O novo portal possibilita comentários do cidadão em cada dataset, o que é algo bom. Lá tem muita gente reclamando de arquivos corrompidos. O servidor da Receita nunca foi bom, pelo contrário, sempre foi muito lento para o volume de acesso, então não sei se é porque as pessoas não estão conseguindo completar os downloads, ou se é porque os arquivos estão corrompidos mesmo.

Me pergunto como alguns sites como o casadosdados conseguem ter dados mais atualizados do que os disponibilizados pela receita?

Por ex, os últimos da Receita são de 27/12/22. Aqui o site já tem dados de 05/01/23: https://casadosdados.com.br/empresas/data-de-abertura/2023-01-05

Provavelmente pela API paga oferecida pelo Serpro:

https://apicenter.estaleiro.serpro.gov.br/documentacao/consulta-cnpj/

O que volta àquela discussão da (falta de) ética em oferecer dados mais atualizados para quem paga. Como pretende o Projeto de Lei n.º 2.224/2021, mas que infelizmente na prática já acontece.

2 curtidas

Os valores de consulta pela SERPRO me pareceram bem salgados. Pra um site que captura mais de 10.000 CNPJs por dia ficaria inviável. Eu vi que sendo um órgão SISP você também tem acesso aos dados, talvez seja isso. Ou talvez eles tenham acesso a um órgão desse.

https://www.gov.br/conecta/catalogo/apis/consulta-cnpj
https://www.gov.br/conecta/catalogo/apis/consulta-cnpj/swagger_cnpj.json/swagger_view

Se fosse isso, certamente seria uma irregularidade. Além do mais, os órgãos públicos também têm que pagar os preços caríssimos do Serpro.

Provavelmente seria mais viável um grupo de empresas formar um pool e compartilhar entre si os dados e os custos de acesso. Mas também não acredito que seja o caso.

Realmente fica aberta a pergunta de como eles obtêm os dados atualizados.

Olá,

Primeira postagem aqui no fórum, procurei em vários lugares e não consegui encontrar.

Estou fazendo uma análise de mercado com base em dados do IBGE, Receita Federal e outros e gostaria de saber se existe uma forma mais fácil de conseguir todos os CNPJs ativos de um município apenas. Vi apenas aquela tabela gigante da Receita, porém não consigo trabalhar com ela pelo tamanho. Haveria alguma forma de filtrar primeiro os dados de um município para baixar uma tabela com as informações dos CNPJs como no SIDRA do IBGE?

Obrigado!

Olá, @victor_schote, bem vindo.

Movi a sua mensagem para o tópico que já existia sobre o assunto, para que as informações fiquem mais organizadas e fáceis para todos acharem.

Você já tentou algumas das fontes alternativas de dados que estão descritas aqui neste tópico? Acabei de dar uma olhada rápida, vi que o Minha Receita não disponibiliza filtros. Nem no BrasilAPI, que aparentemente usa o código do Minha Receita. Já o Brasil.io possui filtros por UF, mas parece que não por município. Na Base dos Dados eu não olhei, mas pode ser que seja possível filtrar por município lá.

Em primeiro lugar, muito obrigado pela recepção, @herrmann! Primeira vez que comentei, mas visito essa comunidade há alguns meses.

Acabei passando batido, mas, na Casa dos Dados, é possível conseguir o número de empresas por município, além de capital social, CNAE e número de filiais. Ponto para a Casa dos Dados!

Sinto falta no dados.gov.br de opções de filtro para pegar apenas determinadas informações, opções de desagregação de dados ou alguma possibilidade de recombinar dados antes de baixar. O SIDRA do IBGE tem algumas dessas opções e é muito bom de trabalhar apesar das importações gerarem algum trabalho para normatizar os dados antes de usar ferramentas de inteligência de dados.

Qualquer novidade na jornada, compartilho por aqui!

Vi que essa Casa dos Dados ainda não estava mencionada neste tópico. Ela oferece API e/ou download de dados?

Aproveitando, vi que a BrasilAPI também não estava presente na postagem inicial e a editei para incluir.

Pessoal preciso de uma ajuda, estou trabalhando na base da RFB de CNPJs e Sócios e estou tentando conecta-la no power bi pela conexão OBDC, meu banco de dados eu abro pelo DB Browser Sqlite do @rictom (GitHub - rictom/cnpj-sqlite: Script em python para carregar os arquivos de cnpj com dados públicos da Receita Federal para o formato sqlite).

Quando eu faço a conexão inicialmente o power bi reconhece as tabelas, porém qnd vou carregar aparece um erro dizendo o seguinte:
“Tentativa de leitura ou gravação em memória protegida. Normalmente isto é uma indicação de que outra memória está danificada.”

Isso aparece nas tabelas que contém inúmeras linhas, nas tabelas menores o powerbi carrega sem problemas…

Acredito que eu não tenha memória suficiente para carregar os dados no Power BI, será que alguém poderia me ajudar em como poderia a contornar esta situação? Meu objetivo final é acessar a base pelo Power BI contemplando todos os dados disponibilizados pela base…

Quanto ao PowerBI prefiro não comentar, já que não tenho familiaridade com a ferramenta. Talvez alguém aqui que já tenha usado possa te ajudar.

Mas com certeza você não conseguirá carregar todos os dados na memória de uma vez. Como já foi comentado aqui no tópico, os arquivos têm mais de 85 GB. Então para usar qualquer ferramenta que processe os dados em memória será necessário fazer algum recorte nos dados que reduza o tamanho de forma a viabilizar a carga.

Olá, pessoal,

Conheci esse portal algum tempo e tem me ajudado muito com informações de dados, porem pessoal nesse ultimo mês precisei acessar os dados públicos da receita federal e tava como 404,

Aguem sabe se mudo de link novamente ?

Olá, @jaderson, bem vindo!

É verdade, o link mudou mais uma vez. Eles fazem isso de tempos em tempos.

Obrigado por avisar! Já atualizei o link na postagem original.

1 curtida

Estou tentando baixar os dados e não consigo. Alguém teria um script? tentei de todas as formas, vendo github e nada.

Olá, bem vindo.

O site da Receita é conhecidamente lento desde sempre e é mesmo difícil de baixar os dados, como já comentado por aqui.

Você tentou baixar das fontes secundárias, como o Brasil.io, Minha Receita, etc.? Costuma ser mais fácil. Os links estão na postagem original deste tópico (acima).

Existe alguma base de dados com os CNPJs existentes e o ano de criação de cada um?

Olá, @Danngm. Bem vindo.

Sim. O conjunto de dados referenciado na postagem original deste tópico possui essa informação. Do dicionário de dados: