Todos sabemos da lentidão pra baixar esses arquivos de ‘dados abertos’ relacionado a CNPJ. Pra resolver isso, vejo muita gente indicando API, outros indicando baixar de repositório de terceiros e etc. Mas sobre o maior problema que é a demora pra baixar pode ser resolvido de uma forma que não achei ainda ninguém falando.
Eu até fiz um ‘programinha’ pra isso simples e creio irá ajudar as pessoas que querem baixar de forma rapida os arquivos. Pois bem… Pq não ter um ‘programa’ que quebre os arquivos em várias partes e baixe? Imagina… 100 threads disparada pra cada arquivo? Isso irá quebrar o mesmo em 100 partes e podemos colocar todos pra baixarem junto e quebrados, será bem mais rápido né? Pois é… Eu baixei em menos de um dia todos os arquivos do link http://200.152.38.155/CNPJ/. Então essa é minha opnião pra quem programa fazer o teste. Valeu!
Obs: Digo isso pois tem pessoas que não querem usar API, outras não confiam em repositórios de terceiros e apenas o que elas querem é algo pra baixar de uma forma rápida a partir dos repositórios originais.
Parece que mudaram de novo o endereço. Atualizei a primeira postagem do tópico com o link atual.
Talvez tenha a ver com a recente reestruturação do portal de dados abertos que quebrou todos os links. Como de costume em reformulações de portais de governo, não colocaram nenhum redirecionamento a partir dos links antigos e não se importaram em deixar os links quebrados.
O novo portal possibilita comentários do cidadão em cada dataset, o que é algo bom. Lá tem muita gente reclamando de arquivos corrompidos. O servidor da Receita nunca foi bom, pelo contrário, sempre foi muito lento para o volume de acesso, então não sei se é porque as pessoas não estão conseguindo completar os downloads, ou se é porque os arquivos estão corrompidos mesmo.
O que volta àquela discussão da (falta de) ética em oferecer dados mais atualizados para quem paga. Como pretende o Projeto de Lei n.º 2.224/2021, mas que infelizmente na prática já acontece.
Os valores de consulta pela SERPRO me pareceram bem salgados. Pra um site que captura mais de 10.000 CNPJs por dia ficaria inviável. Eu vi que sendo um órgão SISP você também tem acesso aos dados, talvez seja isso. Ou talvez eles tenham acesso a um órgão desse.
Se fosse isso, certamente seria uma irregularidade. Além do mais, os órgãos públicos também têm que pagar os preços caríssimos do Serpro.
Provavelmente seria mais viável um grupo de empresas formar um pool e compartilhar entre si os dados e os custos de acesso. Mas também não acredito que seja o caso.
Realmente fica aberta a pergunta de como eles obtêm os dados atualizados.
Primeira postagem aqui no fórum, procurei em vários lugares e não consegui encontrar.
Estou fazendo uma análise de mercado com base em dados do IBGE, Receita Federal e outros e gostaria de saber se existe uma forma mais fácil de conseguir todos os CNPJs ativos de um município apenas. Vi apenas aquela tabela gigante da Receita, porém não consigo trabalhar com ela pelo tamanho. Haveria alguma forma de filtrar primeiro os dados de um município para baixar uma tabela com as informações dos CNPJs como no SIDRA do IBGE?
Movi a sua mensagem para o tópico que já existia sobre o assunto, para que as informações fiquem mais organizadas e fáceis para todos acharem.
Você já tentou algumas das fontes alternativas de dados que estão descritas aqui neste tópico? Acabei de dar uma olhada rápida, vi que o Minha Receita não disponibiliza filtros. Nem no BrasilAPI, que aparentemente usa o código do Minha Receita. Já o Brasil.io possui filtros por UF, mas parece que não por município. Na Base dos Dados eu não olhei, mas pode ser que seja possível filtrar por município lá.
Em primeiro lugar, muito obrigado pela recepção, @herrmann! Primeira vez que comentei, mas visito essa comunidade há alguns meses.
Acabei passando batido, mas, na Casa dos Dados, é possível conseguir o número de empresas por município, além de capital social, CNAE e número de filiais. Ponto para a Casa dos Dados!
Sinto falta no dados.gov.br de opções de filtro para pegar apenas determinadas informações, opções de desagregação de dados ou alguma possibilidade de recombinar dados antes de baixar. O SIDRA do IBGE tem algumas dessas opções e é muito bom de trabalhar apesar das importações gerarem algum trabalho para normatizar os dados antes de usar ferramentas de inteligência de dados.
Qualquer novidade na jornada, compartilho por aqui!
Quando eu faço a conexão inicialmente o power bi reconhece as tabelas, porém qnd vou carregar aparece um erro dizendo o seguinte:
“Tentativa de leitura ou gravação em memória protegida. Normalmente isto é uma indicação de que outra memória está danificada.”
Isso aparece nas tabelas que contém inúmeras linhas, nas tabelas menores o powerbi carrega sem problemas…
Acredito que eu não tenha memória suficiente para carregar os dados no Power BI, será que alguém poderia me ajudar em como poderia a contornar esta situação? Meu objetivo final é acessar a base pelo Power BI contemplando todos os dados disponibilizados pela base…
Quanto ao PowerBI prefiro não comentar, já que não tenho familiaridade com a ferramenta. Talvez alguém aqui que já tenha usado possa te ajudar.
Mas com certeza você não conseguirá carregar todos os dados na memória de uma vez. Como já foi comentado aqui no tópico, os arquivos têm mais de 85 GB. Então para usar qualquer ferramenta que processe os dados em memória será necessário fazer algum recorte nos dados que reduza o tamanho de forma a viabilizar a carga.
Conheci esse portal algum tempo e tem me ajudado muito com informações de dados, porem pessoal nesse ultimo mês precisei acessar os dados públicos da receita federal e tava como 404,
O site da Receita é conhecidamente lento desde sempre e é mesmo difícil de baixar os dados, como já comentado por aqui.
Você tentou baixar das fontes secundárias, como o Brasil.io, Minha Receita, etc.? Costuma ser mais fácil. Os links estão na postagem original deste tópico (acima).