Listas de portais de dados

A quantidade de portais de dados abertos existentes é enorme. Para tentar ajudar a localizar os portais existentes, existe uma série de listas e catálogos de portais. A seguir, uma lista de listas e catálogos de portais que será mantida atualizada para referência.

Brasil

  • outras iniciativas de dados abertos – página no Portal Brasileiro de Dados Abertos que mantém referência a portais de dados abertos oficiais das diversas instâncias da administração pública no Brasil. Mantido a partir de repositório no Github.
  • Colaboradados – contém listas de portais de dados abertos e da transparência no Brasil
  • transparência e dados abertos Brasil – repositório em formato estruturado no Github para manter as referências aos portais de dados abertos e da transparência. Integrado ao Colaboradados.

Mundo

Para sugerir uma atualização da lista, basta responder este tópico.

4 Curtidas

Olá!

Para contribuir com este tópico, referencio meus repositórios no Github contendo 1.339 portais de dados abertos utilizando as quatro principais plataformas disponíveis: CKAN, Socrata, OpenDataSoft e ArcGIS Open Data.
A ideia é complementar os repositórios indicados neste tópico. Esses portais foram todos checados a pouco tempo.
Continuo aprimorando a técnica para encontrar mais portais. Disponibilizarei aqui as atualizações. Quem quiser participar do projeto e contribuir, basta me enviar uma mensagem.

1 Curtida

Olá, @andreiwid.

Muito interessante! Depois vou ver se vale fazer um batimento para encontrar portais brasileiros que não estejam inclusos nas listas que postei inicialmente, e complementá-las.

Fiquei curioso sobre qual foi a metodologia utilizada para fazer esse levantamento. Dei uma olhada no seu repositório no Github e encontrei o código, mas não uma explicação. Como foi obtida a lista inicial de URLs, ou esse “cdxfile”?

Já que você está tratando de portais de dados abertos em geral em todo o mundo, poderia ser interessante você tentar contribuir esse levantamento para o projeto dataportals.org (repositório no Github).

Das principais tecnologias para portais de dados abertos usadas no mundo, acho que só faltou citar duas: Junar (proprietário) e uData (livre).

Olá @herrmann!

Obrigado pela mensagem.

Desenvolvi um método automatizado para encontrar portais de dados abertos, a partir da internet toda. A ideia foi preencher os gaps existentes atualmente para construir um repositório atualizado, checar constantemente as entradas, identificar a plataforma em uso e fornecer informações básicas como o número de datasets. Minha inspiração foi o dataportals.org.

Tenho um paper explicando toda a metodologia. Acesse o http://andreiwid.info/dgo2019paper.html para ter acesso completo à minha versão de autor. No meu Github disponibilizo os principais resultados e algoritmos, conforme parte postada no reply acima. Ainda estou tentando encontrar um repositório para disponibilizar tudo que produzi, pois o tamanho é expressivo e o Github não recebe bem grandes arquivos.

De modo muito resumido, utilizo um crawler aberto (http://commoncrawl.org) para descobrir as URLs de potenciais portais. Em seguida, testo as APIs de plataformas conhecidas a fim de identificá-las.

No roadmap de melhorias do método consta incluir mais plataformas, como as que você citou (Junar e uData) e outras que estão na pauta. Além disso, construir um dashboard para disponibilizar estas informações para a comunidade (semelhante ao dataportals.org).

Deixo aqui o convite para quem quiser contribuir com o projeto. Quem sabe utilizar o trabalho já feito pelo dataportals.org e alimentá-lo com conteúdo novo, checado constantemente.

Se quiser, vamos marcar uma conversa a respeito.

3 Curtidas

Muito interessante o seu trabalho, @andreiwid! Certamente irá contribuir para uma melhor polinização entre as iniciativas e para o aumento da amplitude do acesso aos dados, pois parte essencial das barreiras ao uso dos dados abertos é a sua descoberta. Até hoje, muitas pessoas que procuram dados (quiçá a maioria), sequer sabe que existe o dados.gov.br, por falta de divulgação.

Excelente! Separei o seu paper aqui e pretendo lê-lo assim que puder.

Já pensou em usar alguma solução P2P, como o IPFS ou o dat://?

Interessante! Eu não conhecia o Common Crawl, nem sabia que existiam soluções desse tipo gratuitas.

Acredito que seria ótimo disponibilizar esses dados também no dataportals.org. Ele próprio poderia ser esse dashboard, não? Por exemplo, como eu havia mencionado, já contribuí para ele o conteúdo do levantamento de portais de dados abertos no Brasil (baseado na pesquisa do Rodrigo Klein), o que resultou em um grande aumento do número de portais brasileiros que podem nele ser consultados.

Temos que ter em mente, entretanto, que nem todos os portais que utilizam ferramentas para catálogos de dados abertos, de fato o são. Por exemplo, somente no Ministério da Economia, temos o Portal de Atos da Procuradoria-Geral da Fazenda Nacional e o Catálogo de Bases de Dados do Govdata. Ambos usam CKAN, mas não são portais de dados abertos. Essa é uma dificuldade a mais para uma abordagem automatizada como a que você está utilizando.

Eu topo contribuir com o projeto. Sim, vamos utilizar mensagens particulares aqui do fórum para marcar uma conversa.

1 Curtida

Criei um tutorial sobre como usar Python, Pandas e Frictionless Data para consultar a lista dos catálogos de dados abertos governamentais no Brasil. Essa é a mesma lista de “outras iniciativas” que está no Portal Brasileiro de Dados Abertos.

O tutorial, que é bem simples, está disponível aqui:

1 Curtida