As 5 estrelas dos dados abertos

Em 2006, Tim Berners-Lee, considerado o criador da World Wide Web, propôs o conceito de Linked Open Data (que poderia ser traduzido como dados abertos ligados ou contectados).

Em 2013, o @nitai escreveu um artigo sobre o tema para o blog da Open Knowledge Brasil, que provocou uma controvérsia conceitual que perdura até hoje.

A questão é: no modelo de Berners-Lee, só poderia ser considerado que algo é dado aberto a partir da 3ª estrela?

Já ouvi pessoas argumentarem que, segundo a definição de aberto presente na Open Definition, proposta pela Open Knowledge e a mais referenciada no mundo, algum dado fornecido com as características da 1ª estrela (ou da 2ª) já seriam dado aberto, uma vez que a definição não faria exigência de que o formato fosse aberto. Todavia, esse argumento é facilmente refutado ao se consultar o texto expandido da versão 2.1 da definição:

1.3 Machine Readability

The work must be provided in a form readily processable by a computer and where the individual elements of the work can be easily accessed and modified.

1.4 Open Format

The work must be provided in an open format. An open format is one which places no restrictions, monetary or otherwise, upon its use and can be fully processed with at least one free/libre/open-source software tool.

Aqui resta claro que dados na forma da 1ª e da 2ª estrelas (exemplos clássicos: os formatos PDF e XLS, respectivamente), não podem ser considerados como dados abertos, segundo a Open Definition, uma vez que contrariam estas cláusulas.

4 curtidas

Ola Hermann, e demais da comunidade,

Parabéns pela iniciativa aqui do discourse. Aquele Telegram me deixa louco, não dou conta de interagir.

Queria fazer uma contribuição a este debate a partir de uma questão concreta, da minha vivência com dados abertos e especialmente no campo da educação em dados, ou Data Literacy.

Por algum motivo muito bizarro (acho que é perversidade mesmo), o Microsoft Excel ainda hoje, no ano da graça de 2019, faz com que a tarefa de abrir um arquivo CSV seja absurdamente complicada. Em geral, para uma pessoa comum, que irá tentar abrir um CSV no Windows (pirata) usando um Excel (pirata), o jeito mais direto é selecionar as linhas, clicar Dividir Colunas, etc, etc, etc…

Assim, me parece que na vida real das pessoas que não usam linux/libreoffice, uma tabela em xls(x) é mais “aberta” do que uma tabela em csv. Não eu que eu goste disso, mas me parece que a realidade mostra isso.

O ponto que quero chegar é que discutir uma definição de dados abertos sem pensar em quem vai usar esses dados pode nos levar a uma visão idealista e descolada da realidade.

Já faz um tempo que me afastei da academia (talvez por conta sentir muita falta da materialidade), mas no campo das definições de dados abertos eu sempre gostei mais de outro Tim, também inglês, o Tim Davies. Outro autor que gosto muito, que infelizmente morreu recentemente, é o Michael Gurstein.

Especialmente, o texto Open data: Empowering the empowered or effective data use for everyone? é muito bom neste sentido, de questionar os dados abertos no sentido de quem usa e se beneficia disso.

Grande abraço!
alan

1 curtida

Olá, @alantygel.

Concordo que é fundamental para alcançar o uso potencial dos dados que seja trabalhada a educação em dados, ou Data Literacy. Inclusive esta é uma das recomendações do livro The State of Open Data, lançado recentemente, do qual um dos editores é o próprio TIm Davies, menciondo por você:

While many funders have, in recent years, explored a shift from focusing on open data supply to looking at open data use, many chapters in this volume also call for an increased and broader focus on data literacy. Data literacy is not just about open data, but open data can be an invaluable asset for inclusive and empowering data literacy-building programmes. We suggest that an underinvestment in data literacy building has been a major factor in limiting both the quality of data supply and the uptake and use of open data over the last ten years, and that investment in intermediaries, while valuable, does not obviate the need to see the majority of organisations and individuals engaged in social change and development work having direct access to much higher levels of data literacy.

Entendo esse trabalho de Data Literacy, principalmente, como sendo ensinar as pessoas a utilizarem um arquivo CSV com as ferramentas que sirvam aos seus propósitos, aproveitando as habilidades que as pessoas já têm desenvolvidas. Não é tão difícil, embora seja contraintuitivo (provavelmente propositalmente por parte da Microsoft) abrir um CSV no Excel.

Discordo que usar xls(x) para tabelas possa ser considerado mais “aberto” que em CSV. Mesmo se deixarmos de lado por um momento a definição de aberto, que vem sendo discutida há mais de uma década, e que coloca como requisito que o formato utilizado seja também um formato aberto, embora eu considere que isso seja de fundamental importância, ainda há um outro problema com as planilhas nos formatos do Excel.

Esse é um problema que também é compartilhado pelo formato Open Document (.ods): o incentivo ao uso de elementos que atrapalham o reúso automatizado dos dados. Esses elementos são, por exemplo: células de explicação antes do início e depois do fim da tabela de fato, uso de fórmulas, formatação de apresentação, etc. Eles estão descritos no Data Quality Checklist, documento do novo portal de dados abertos da cidade de Toronto, que orienta aos publicadores de dados como preparar as planilhas para a disponibilização como dados abertos, de forma a maximizar o seu potencial de reúso.

Ao consumir dados de uma fonte pública, um dos maiores desafios é automatizar esse consumo para que os dados sejam mantidos atualizados. E uma dificuldade recorrente na automação utilizando dados abertos é que, assim como ocorre quando precisamos raspar dados de uma página HTML e alterações na estrutura e na formatação da página quebram a automação, o uso desses elementos em planilhas também têm alto potencial de quebrar uma automação que tenha sido implementada. Convém lembrar que facilitar a automação é um dos motivos que provocam a necessidade de se discutir dados abertos, em primeiro lugar.

Por fim, embora seja muito importante manter a facilidade de uso dos dados por ferramentas de planilha, como o Libre Office e Excel, é cada vez mais frequente o uso de dados abertos por aplicações de aprendizagem de máquina e ciência de dados. Mais e mais pessoas têm estudado linguagens como Python e R para automatizar alguma tarefa. Colocar dados em um formato que prioriza a apresentação visual e coloca mais fricção na automatização (por exemplo, obrigando alguém a reescrever o código toda vez que alguém acrescenta mais uma linha de cabeçalho na planilha, ou algo assim), é cortar pela raiz esse uso crescente dos dados, que sempre foi um dos principais potenciais usos dos dados abertos. Para o caso do leigo que vai simplesmente consultar os dados uma única vez, copiar e colar em outra planilha ou documento e depois nunca mais a ele retornar, sempre existiram os painéis, portais da transparência, etc.

Essa eu considero uma diferença fundamental entre os conceitos de transparência e de dados abertos. Não são a mesma coisa, embora muitas vezes possa haver interseções.

3 curtidas

Oi pessoal,

Muito bacana a reflexão. Ultimamente, estava pensando sobre esta classificação, ao preparar uns materiais de aula. De fato, como a discussão aqui mostra, existem diferentes esquemas interpretativos para se definir “dados abertos” e, partindo de premissas diferentes, chegaremos a conclusões distintas.

Sobre a questão inicial, eu gosto de pensar em graus diferentes de abertura e a classificação das 5 estrelas me parece especialmente interessante por apontar para isto, ao invés de uma abordagem interpretativa binária/categórica - que considero mais suscetível a se distanciar da prática.

Salvo engano, o modelo surgiu em 2010 como um acréscimo do Berners-Lee ao seu texto sobre "Linked Data : w3.org/DesignIssues/LinkedData.html

Adotando a definição inicial do artigo, mesmo um PDF publicado com licença aberta já seria considerado como “dado aberto”. A questão então passa a ser: o que é uma licença aberta?

Se levarmos em consideração a definição atual da Open Knowledge (versão 2.1 criada em 2015 e citada no post inicial), então caíriamos em uma aparente contradição, pois esta licença exige como pré-requisito os atributos da 2a e 3a estrela do modelo de 2010 do Tim Berners-Lee, como apontou o Augusto.

No entanto, adotando definições diferentes podemos chegar a outras conclusões. Por exemplo, a licença Creative Commons BY - que é citada no artigo do Tim - é uma licença aberta que não exige estes pré-requisitos.

Em geral, ao falar sobre o modelo dos ‘dados abertos 5 estrelas’ segundo o modelo original do Berners-Lee, eu costumo explicar a taxonomia segundo os critérios adotados por ele, mas mais recentemente decidi utilizar a imagem que foi gerada a partir do post do Nitai, ao invés da original em inglês, justamente por ele introduzir um elemento novo, a definição da LAI, que já incopora a importância dos formatos abertos e da legibilidade por máquinas.

Enfim, a meu ver, não existe propriamente uma contradição. Vejo apenas diferentes esquemas interpretativos, frutos de processos históricos distintos, talvez até mostrando um amadurecimento das demandas e discussões em torno do tema.

Isso me parece ter a ver também com a reflexão sobre a quarta estrela que estava fazendo ao preparar os materiais de aula. Me parece que um lado existe a definição original da classificação das 5 estrelas segundo a qual ela se define pelo uso do padrão RDF, tendo por consequência a possibilidade de se identificar os dados por uma URI.

Por outro lado, uma corrente interpretativa do modelo que enfatiza mais a URI do que o formato RDF, vide o texto do Nitai, por exemplo. Neste sentido, entendendo que a URI se refere aos dados e não a um arquivo, penso que um serviço de provimento de dados em JSON via API poderia ser enquadrado como “4 estrelas”, segundo uma interpretação contemporânea do modelo proposto pelo Berners-Lee.

Por fim, gostaria de compartilhar aqui um tutorial/Quizz sobre o tema que preparei um tempo atrás, mas ainda não foi publicado: Quizz: As cinco estrelas dos Dados Abertos | H5P

Ainda preciso finalizar e fazer algumas coisas, mas adoraria os feedbacks de vocês! : )

1 curtida

Não vejo contradição nisso. A Open Definition define separadamente os conceitos de “Open Works” (seção 1) e “Open Licenses” (seção 2), sendo que este é pré-condição para aquele. No caso da primeira estrela, o arquivo é disponibilizado atende ao segundo critério, mas não o primeiro. A segunda estrela atende ao segundo e a parte do primeiro. Entendo que ele pode ser considerado como um documento com algum grau de abertura, ou ainda como uma forma de transparência, mas não é “dado aberto”.

Concordo. E acrescento que a URI é peça fundamental para se obter a próxima, a quinta, estrela, uma vez que não é possível linkar os dados sem que cada dado tenha um endereço (URI) definido. Mesmo que não se pretenda chegar à 5ª estrela com a publicação de dados, seja qual for o motivo, prover identificadores únicos para os dados é importante e definido pelo W3C como uma boa prática na publicação de dados na web:

Adopting a common identification system enables basic data identification and comparison processes by any stakeholder in a reliable way. They are an essential pre-condition for proper data management and reuse.

Developers may build URIs into their code and so it is important that those URIs persist and that they dereference to the same resource over time without the need for human intervention.

Vale observar que tanto arquivos estáticos, quanto APIs, podem fornecer 4 ou 5 estrelas. Na verdade, a partir da 2ª estrela já é possível fornecer dados por meio de APIs.

Pense, por exemplo, em uma API que recebe parâmetros de consulta e retorna como resposta dados no formato ESRI Shapefile, que é um formato muito comum para dados geoespaciais. A especificação está descrita por um documento disponível publicamente e aberto a implementações, mas a evolução do padrão é controlada pela empresa ESRI, que o criou (situação semelhante o Office Open Format da Microsoft – docx, xlsx, etc.). Nesses casos há interpretações diferentes sobre se esses formatos são considerados abertos ou não.

Fornecer uma API oferece a vantagem de o consumidor de dados obter apenas a parte que lhe interessa, economizando banda de transferência de dados e processamento. Por outro lado, também é essencial fornecer dados em arquivos para download completo, o chamado “bulk download”:

Best Practice 17: Provide bulk download

Enable consumers to retrieve the full dataset with a single request.

Why

When Web data is distributed across many URIs but might logically be organized as one container, accessing the data in bulk can be useful. Bulk access provides a consistent means to handle the data as one dataset. Individually accessing data over many retrievals can be cumbersome and, if used to reassemble the complete dataset, can lead to inconsistent approaches to handling the data.

Para algumas aplicações de uso dos dados, e.g., calcular dados agregados e estatísticas, treinar modelos de aprendizagem de máquina, etc., é necessário ter a totalidade dos dados disponíveis para processamento. Por isso, forncecer os dados apenas como API, sem o correspondente download total, é desencorajado em geral na comunidade de dados abertos. Metodologias de avaliação, como o Open Data Index e o Open Data Barometer atribuem pontuação específica para se esse quesito está presente nos dados abertos pelos governos.

Fiz o quiz e achei muito bom! Parabéns! :clap::clap: :tada:

1 curtida

Também fiz o quizz e gostei muito. Ferramenta interessante! Por mim já poderia divulgar. :raised_hands:t5:

1 curtida

O pessoal da equipe de inovação do Ministério Público do Rio de Janeiro criou uma postagem no Medium que é uma introdução às ontologias e web semântica para quem ainda não conhece o assunto. Recomendo a sua leitura:

https://medium.com/inovação-em-governo-e-no-controle/ser-ou-não-ser-um-computador-17275704df1d

Além disso, uma boa dica para aprender é também ver os materiais dos cursos que ofertamos na Infraestrutura Nacional de Dados Abertos – INDA, entre os anos de 2010 e 2013, com alguns dos mais renomados professores de universidades brasileiras. Apesar do tempo decorrido, a maior parte dos conhecimentos ainda se aplica até hoje.

http://wiki.dados.gov.br/Produto-GT4-Capacitacao-em-Ontologias-e-Padroes.ashx

Para conhecer as experiências de linked data já realizadas no governo federal e as ontologias criadas, recomendo ver o Repositório de Vocabulários e Ontologias do Governo Eletrônico – e-VoG. Ele foi tirado do ar neste ano de 2020, mas ainda é possível ler todo o conteúdo na Wayback Machine do Internet Archive:

https://web.archive.org/web/20200220163026/http://vocab.e.gov.br/

2 curtidas

Vou reviver o tópico e plantar uma sementinha. Antes mesmo da ideia do 5 estrelas, as especificações permitiam isso.

Dados interligados usando URI: URL ou URN

main-qimg-0e91b072f3e351a17327b58f878b1573

O argumento

A forma como RDF explica uso de URls e defende URLs é mais pela sugestão de que isso seria uma forma de garantir uma string única a nível para representar um conceito. As máquinas que implementam RDF nunca foram obrigadas a realmente clicar nos links.

Quanto a URNs, desde que dois conceitos diferentes nunca usem mesma URN, o requisito principal está atingido. Qualquer coisa além disso é vantagem.

Porém embora URNs não tenham obrigação de serem resolvidas (que é a vantagem teórica de URLs) ainda assim elas podem ter implementações que resolvem para algum recurso. Não é algo automático (ou seja, precisaria de trabalho adicional) mas é viável.

Conclusão

Dentro da web semântica, o “semântica” (sentido: dados interligados) é obrigatório mas o “web” (sentido: internet aberta com URL) é opcional.

Implicações interessantes: tanto web aberta, como Intranet, como sistemas de arquivos locais

Desde com certa etiqueta, toda idéia de dados interligados 5 estrelas pode ser feita usando URNs sem necessidade de serviço web http tradicional.

Embora a desvantagem de não usar http para resolver diretamente pareça ruim, no mínimo URNs podem ajudar a abstrair a forma de primeiro usar cache local antes de tentar baixar algo da internet. Mais ao mesmo tempo, poderiam permitir funcionar mesmo quando há necessidade de (por questões de segurança) trabalhar com acesso à internet totalmente bloqueado!

Requisito implícito

Claro que ainda existe a necessidade de ter convenções de qual URN chamar um recurso que normalmente estaria acessado via URL e ter alguma forma de como a pessoa poderia baixar uma cópia previamente. E, depois que definido, não reusar. Porém como a quantidade de recursos que tipicamente seriam publicados em URNs (caso de DOI, ISBN, até mesmo o URN Lex brasileiro) é menor e sempre planejada, isso é viável!

O uso de URNs, quando comparado com URLs, para a finalidade de identificar URIs, tem como desvantagens acrescentar complexidade e aumentar os possíveis pontos de falha para obter mais informações e expandir a rede.

Isso aumenta a complexidade pois é necessário um conhecimento prévio sobre como resolver aquele determinado tipo de URN, isso para cada tipo de URN que a sua aplicação utilizar. Quando se trabalha com diversos conceitos simultaneamente, pode se tornar inviável a expansão do grafo por resolução de URN.

Isso acrescenta possíveis pontos de falha porque é necessário garantir que cada um dos resolvedores de URN esteja funcionando no momento do uso.

Daí você pode argumentar que não quer expandir o grafo, que quer apenas a semântica e não a web. Isto é, não vai usar nenhum resolvedor de URNs para encontrar novas triplas. Pois isso também se aplica a nós identificados por URL. Um processador não é obrigado a seguir o link e expandir o grafo, ele o faz apenas na medida que lhe for conveniente.

É por isso que no documento “Linked Data Design Issues”, cujo link o @belisario referenciou em sua postagem, Tim Berners-Lee afirma explicitamente já em 2006:

  1. Use URIs as names for things
  2. Use HTTP URIs so that people can look up those names.

E em seguida elabora mais sobre os motivos dessa opção de design e por que as pessoas deveriam usar URIs do tipo HTTP (hoje leia-se HTTPS, mudança essa que torna os identificadores já definidos anteriormente não tão persistentes, mas essa é uma outra questão). Recomendo a leitura do texto do Berners-Lee.

2 curtidas

Uma saída elegante adotada por muitos padrões originalmente fundamentados em URN, é a URL contendo URN (de preferência uma URL o mais curta possível). O “pulo do gato” é garantir e investir (não é barato!) para que a URL seja de fato um padrão popular e reconhecido por todos como um “de-para” da URN:

Padrão URN URL canônica
DOI de um artigo científico urn:doi:10.1038/ncomms7368 https://doi.org/10.1038/ncomms7368
SchemaOrg de um conceito urn:schema-org:Person https://schema.org/Person
URN LEX de uma lei urn:lex:br:federal:lei:2014-04-23;12965 https://www.lexml.gov.br/urn/urn:lex:br:federal:lei:2014-04-23;12965

Na prática mudamos o identificador de namespace, por exemplo de URN:DOI para sua URL canônica, http://doi.org através da seguinte sintaxe expressa através de URI Templates:

  • URN:   urn:{namespace}:{objeto}.   Exemplo:
      com namespace=doi e objeto=10.1038/ncomms7368
      temos urn:doi:10.1038/ncomms7368.
  • URL:   https://{dominio}/{objeto}.   Exemplo:
      com dominio=doi.org e objeto=10.1038/ncomms7368
      temos https://doi.org/10.1038/ncomms7368.

Os URI Templates acima garantem a interoperabilidade entre URN e URL. O importante é que o “dono do domínio da URL” seja fiel ao seu compromisso de nunca mudar a sintaxe e nuca sair do ar, portanto uma URL desse tipo precisa ser contratualmente também uma Persistent URL. Isso em geral é possível com associações, condomínios voluntários, fundações e agências autônomas do governo (estáveis e que não visam o lucro).


Tentando uma explicação

O grande imbroglio das URNs, e por isso elas sempre foram vistas com desconfiança, é que, sendo um padrão aberto ou fechado, permanece o problema:

  • Se as URNs fossem um padrão totalmente aberto, cairia na Tragédia dos Comuns, e no problema dos similares concorrentes, sem padrões dominantes e com consumo aleatório exaurindo identificadores de namespaces (os mais curtos são os primeiros a serem consumidos).

  • Se as URNs fossem um padrão totalmente fechado, restrito a um “clube de amigos” (como tem sido o IANA Assignments/URN-namespaces), perderia a utilidade e a legitimidade.

A solução das URLs é a “solução de mercado”: os domínios que conquistam público e legitimidade técnica (nos exemplos doi.org, schema.org e lexml.gov.br) , passam a ser elegíveis como URNs, ou seja, serão reconhecidos universalmente como pares URN-URL.

… E pensando mais no “aqui agora”, cabe a nós, como fórum e comunidade brasileira de dados abertos, reforçar a legitimidade dos pares URN-URL que reconhecemos como legítimos, abertos e relevantes.

3 curtidas