As 5 estrelas dos dados abertos

Em 2006, Tim Berners-Lee, considerado o criador da World Wide Web, prop√īs o conceito de Linked Open Data (que poderia ser traduzido como dados abertos ligados ou contectados).

Em 2013, o @nitai escreveu um artigo sobre o tema para o blog da Open Knowledge Brasil, que provocou uma controvérsia conceitual que perdura até hoje.

A questão é: no modelo de Berners-Lee, só poderia ser considerado que algo é dado aberto a partir da 3ª estrela?

Já ouvi pessoas argumentarem que, segundo a definição de aberto presente na Open Definition, proposta pela Open Knowledge e a mais referenciada no mundo, algum dado fornecido com as características da 1ª estrela (ou da 2ª) já seriam dado aberto, uma vez que a definição não faria exigência de que o formato fosse aberto. Todavia, esse argumento é facilmente refutado ao se consultar o texto expandido da versão 2.1 da definição:

1.3 Machine Readability

The work must be provided in a form readily processable by a computer and where the individual elements of the work can be easily accessed and modified.

1.4 Open Format

The work must be provided in an open format. An open format is one which places no restrictions, monetary or otherwise, upon its use and can be fully processed with at least one free/libre/open-source software tool.

Aqui resta claro que dados na forma da 1ª e da 2ª estrelas (exemplos clássicos: os formatos PDF e XLS, respectivamente), não podem ser considerados como dados abertos, segundo a Open Definition, uma vez que contrariam estas cláusulas.

4 Curtidas

Ola Hermann, e demais da comunidade,

Parabéns pela iniciativa aqui do discourse. Aquele Telegram me deixa louco, não dou conta de interagir.

Queria fazer uma contribuição a este debate a partir de uma questão concreta, da minha vivência com dados abertos e especialmente no campo da educação em dados, ou Data Literacy.

Por algum motivo muito bizarro (acho que é perversidade mesmo), o Microsoft Excel ainda hoje, no ano da graça de 2019, faz com que a tarefa de abrir um arquivo CSV seja absurdamente complicada. Em geral, para uma pessoa comum, que irá tentar abrir um CSV no Windows (pirata) usando um Excel (pirata), o jeito mais direto é selecionar as linhas, clicar Dividir Colunas, etc, etc, etc…

Assim, me parece que na vida real das pessoas que n√£o usam linux/libreoffice, uma tabela em xls(x) √© mais ‚Äúaberta‚ÄĚ do que uma tabela em csv. N√£o eu que eu goste disso, mas me parece que a realidade mostra isso.

O ponto que quero chegar é que discutir uma definição de dados abertos sem pensar em quem vai usar esses dados pode nos levar a uma visão idealista e descolada da realidade.

J√° faz um tempo que me afastei da academia (talvez por conta sentir muita falta da materialidade), mas no campo das defini√ß√Ķes de dados abertos eu sempre gostei mais de outro Tim, tamb√©m ingl√™s, o Tim Davies. Outro autor que gosto muito, que infelizmente morreu recentemente, √© o Michael Gurstein.

Especialmente, o texto Open data: Empowering the empowered or effective data use for everyone? é muito bom neste sentido, de questionar os dados abertos no sentido de quem usa e se beneficia disso.

Grande abraço!
alan

1 Curtida

Ol√°, @alantygel.

Concordo que √© fundamental para alcan√ßar o uso potencial dos dados que seja trabalhada a educa√ß√£o em dados, ou Data Literacy. Inclusive esta √© uma das recomenda√ß√Ķes do livro The State of Open Data, lan√ßado recentemente, do qual um dos editores √© o pr√≥prio TIm Davies, menciondo por voc√™:

While many funders have, in recent years, explored a shift from focusing on open data supply to looking at open data use, many chapters in this volume also call for an increased and broader focus on data literacy. Data literacy is not just about open data, but open data can be an invaluable asset for inclusive and empowering data literacy-building programmes. We suggest that an underinvestment in data literacy building has been a major factor in limiting both the quality of data supply and the uptake and use of open data over the last ten years, and that investment in intermediaries, while valuable, does not obviate the need to see the majority of organisations and individuals engaged in social change and development work having direct access to much higher levels of data literacy.

Entendo esse trabalho de Data Literacy, principalmente, como sendo ensinar as pessoas a utilizarem um arquivo CSV com as ferramentas que sirvam aos seus propósitos, aproveitando as habilidades que as pessoas já têm desenvolvidas. Não é tão difícil, embora seja contraintuitivo (provavelmente propositalmente por parte da Microsoft) abrir um CSV no Excel.

Discordo que usar xls(x) para tabelas possa ser considerado mais ‚Äúaberto‚ÄĚ que em CSV. Mesmo se deixarmos de lado por um momento a defini√ß√£o de aberto, que vem sendo discutida h√° mais de uma d√©cada, e que coloca como requisito que o formato utilizado seja tamb√©m um formato aberto, embora eu considere que isso seja de fundamental import√Ęncia, ainda h√° um outro problema com as planilhas nos formatos do Excel.

Esse √© um problema que tamb√©m √© compartilhado pelo formato Open Document (.ods): o incentivo ao uso de elementos que atrapalham o re√ļso automatizado dos dados. Esses elementos s√£o, por exemplo: c√©lulas de explica√ß√£o antes do in√≠cio e depois do fim da tabela de fato, uso de f√≥rmulas, formata√ß√£o de apresenta√ß√£o, etc. Eles est√£o descritos no Data Quality Checklist, documento do novo portal de dados abertos da cidade de Toronto, que orienta aos publicadores de dados como preparar as planilhas para a disponibiliza√ß√£o como dados abertos, de forma a maximizar o seu potencial de re√ļso.

Ao consumir dados de uma fonte p√ļblica, um dos maiores desafios √© automatizar esse consumo para que os dados sejam mantidos atualizados. E uma dificuldade recorrente na automa√ß√£o utilizando dados abertos √© que, assim como ocorre quando precisamos raspar dados de uma p√°gina HTML e altera√ß√Ķes na estrutura e na formata√ß√£o da p√°gina quebram a automa√ß√£o, o uso desses elementos em planilhas tamb√©m t√™m alto potencial de quebrar uma automa√ß√£o que tenha sido implementada. Conv√©m lembrar que facilitar a automa√ß√£o √© um dos motivos que provocam a necessidade de se discutir dados abertos, em primeiro lugar.

Por fim, embora seja muito importante manter a facilidade de uso dos dados por ferramentas de planilha, como o Libre Office e Excel, √© cada vez mais frequente o uso de dados abertos por aplica√ß√Ķes de aprendizagem de m√°quina e ci√™ncia de dados. Mais e mais pessoas t√™m estudado linguagens como Python e R para automatizar alguma tarefa. Colocar dados em um formato que prioriza a apresenta√ß√£o visual e coloca mais fric√ß√£o na automatiza√ß√£o (por exemplo, obrigando algu√©m a reescrever o c√≥digo toda vez que algu√©m acrescenta mais uma linha de cabe√ßalho na planilha, ou algo assim), √© cortar pela raiz esse uso crescente dos dados, que sempre foi um dos principais potenciais usos dos dados abertos. Para o caso do leigo que vai simplesmente consultar os dados uma √ļnica vez, copiar e colar em outra planilha ou documento e depois nunca mais a ele retornar, sempre existiram os pain√©is, portais da transpar√™ncia, etc.

Essa eu considero uma diferen√ßa fundamental entre os conceitos de transpar√™ncia e de dados abertos. N√£o s√£o a mesma coisa, embora muitas vezes possa haver interse√ß√Ķes.

2 Curtidas

Oi pessoal,

Muito bacana a reflex√£o. Ultimamente, estava pensando sobre esta classifica√ß√£o, ao preparar uns materiais de aula. De fato, como a discuss√£o aqui mostra, existem diferentes esquemas interpretativos para se definir ‚Äúdados abertos‚ÄĚ e, partindo de premissas diferentes, chegaremos a conclus√Ķes distintas.

Sobre a questão inicial, eu gosto de pensar em graus diferentes de abertura e a classificação das 5 estrelas me parece especialmente interessante por apontar para isto, ao invés de uma abordagem interpretativa binária/categórica - que considero mais suscetível a se distanciar da prática.

Salvo engano, o modelo surgiu em 2010 como um acréscimo do Berners-Lee ao seu texto sobre "Linked Data : w3.org/DesignIssues/LinkedData.html

Adotando a defini√ß√£o inicial do artigo, mesmo um PDF publicado com licen√ßa aberta j√° seria considerado como ‚Äúdado aberto‚ÄĚ. A quest√£o ent√£o passa a ser: o que √© uma licen√ßa aberta?

Se levarmos em consideração a definição atual da Open Knowledge (versão 2.1 criada em 2015 e citada no post inicial), então caíriamos em uma aparente contradição, pois esta licença exige como pré-requisito os atributos da 2a e 3a estrela do modelo de 2010 do Tim Berners-Lee, como apontou o Augusto.

No entanto, adotando defini√ß√Ķes diferentes podemos chegar a outras conclus√Ķes. Por exemplo, a licen√ßa Creative Commons BY - que √© citada no artigo do Tim - √© uma licen√ßa aberta que n√£o exige estes pr√©-requisitos.

Em geral, ao falar sobre o modelo dos ‚Äėdados abertos 5 estrelas‚Äô segundo o modelo original do Berners-Lee, eu costumo explicar a taxonomia segundo os crit√©rios adotados por ele, mas mais recentemente decidi utilizar a imagem que foi gerada a partir do post do Nitai, ao inv√©s da original em ingl√™s, justamente por ele introduzir um elemento novo, a defini√ß√£o da LAI, que j√° incopora a import√Ęncia dos formatos abertos e da legibilidade por m√°quinas.

Enfim, a meu ver, n√£o existe propriamente uma contradi√ß√£o. Vejo apenas diferentes esquemas interpretativos, frutos de processos hist√≥ricos distintos, talvez at√© mostrando um amadurecimento das demandas e discuss√Ķes em torno do tema.

Isso me parece ter a ver também com a reflexão sobre a quarta estrela que estava fazendo ao preparar os materiais de aula. Me parece que um lado existe a definição original da classificação das 5 estrelas segundo a qual ela se define pelo uso do padrão RDF, tendo por consequência a possibilidade de se identificar os dados por uma URI.

Por outro lado, uma corrente interpretativa do modelo que enfatiza mais a URI do que o formato RDF, vide o texto do Nitai, por exemplo. Neste sentido, entendendo que a URI se refere aos dados e n√£o a um arquivo, penso que um servi√ßo de provimento de dados em JSON via API poderia ser enquadrado como ‚Äú4 estrelas‚ÄĚ, segundo uma interpreta√ß√£o contempor√Ęnea do modelo proposto pelo Berners-Lee.

Por fim, gostaria de compartilhar aqui um tutorial/Quizz sobre o tema que preparei um tempo atr√°s, mas ainda n√£o foi publicado: https://h5p.org/node/520377

Ainda preciso finalizar e fazer algumas coisas, mas adoraria os feedbacks de vocês! : )

1 Curtida

N√£o vejo contradi√ß√£o nisso. A Open Definition define separadamente os conceitos de ‚ÄúOpen Works‚ÄĚ (se√ß√£o 1) e ‚ÄúOpen Licenses‚ÄĚ (se√ß√£o 2), sendo que este √© pr√©-condi√ß√£o para aquele. No caso da primeira estrela, o arquivo √© disponibilizado atende ao segundo crit√©rio, mas n√£o o primeiro. A segunda estrela atende ao segundo e a parte do primeiro. Entendo que ele pode ser considerado como um documento com algum grau de abertura, ou ainda como uma forma de transpar√™ncia, mas n√£o √© ‚Äúdado aberto‚ÄĚ.

Concordo. E acrescento que a URI √© pe√ßa fundamental para se obter a pr√≥xima, a quinta, estrela, uma vez que n√£o √© poss√≠vel linkar os dados sem que cada dado tenha um endere√ßo (URI) definido. Mesmo que n√£o se pretenda chegar √† 5¬™ estrela com a publica√ß√£o de dados, seja qual for o motivo, prover identificadores √ļnicos para os dados √© importante e definido pelo W3C como uma boa pr√°tica na publica√ß√£o de dados na web:

Adopting a common identification system enables basic data identification and comparison processes by any stakeholder in a reliable way. They are an essential pre-condition for proper data management and reuse.

Developers may build URIs into their code and so it is important that those URIs persist and that they dereference to the same resource over time without the need for human intervention.

Vale observar que tanto arquivos estáticos, quanto APIs, podem fornecer 4 ou 5 estrelas. Na verdade, a partir da 2ª estrela já é possível fornecer dados por meio de APIs.

Pense, por exemplo, em uma API que recebe par√Ęmetros de consulta e retorna como resposta dados no formato ESRI Shapefile, que √© um formato muito comum para dados geoespaciais. A especifica√ß√£o est√° descrita por um documento dispon√≠vel publicamente e aberto a implementa√ß√Ķes, mas a evolu√ß√£o do padr√£o √© controlada pela empresa ESRI, que o criou (situa√ß√£o semelhante o Office Open Format da Microsoft ‚Äď docx, xlsx, etc.). Nesses casos h√° interpreta√ß√Ķes diferentes sobre se esses formatos s√£o considerados abertos ou n√£o.

Fornecer uma API oferece a vantagem de o consumidor de dados obter apenas a parte que lhe interessa, economizando banda de transfer√™ncia de dados e processamento. Por outro lado, tamb√©m √© essencial fornecer dados em arquivos para download completo, o chamado ‚Äúbulk download‚ÄĚ:

Best Practice 17: Provide bulk download

Enable consumers to retrieve the full dataset with a single request.

Why

When Web data is distributed across many URIs but might logically be organized as one container, accessing the data in bulk can be useful. Bulk access provides a consistent means to handle the data as one dataset. Individually accessing data over many retrievals can be cumbersome and, if used to reassemble the complete dataset, can lead to inconsistent approaches to handling the data.

Para algumas aplica√ß√Ķes de uso dos dados, e.g., calcular dados agregados e estat√≠sticas, treinar modelos de aprendizagem de m√°quina, etc., √© necess√°rio ter a totalidade dos dados dispon√≠veis para processamento. Por isso, forncecer os dados apenas como API, sem o correspondente download total, √© desencorajado em geral na comunidade de dados abertos. Metodologias de avalia√ß√£o, como o Open Data Index e o Open Data Barometer atribuem pontua√ß√£o espec√≠fica para se esse quesito est√° presente nos dados abertos pelos governos.

Fiz o quiz e achei muito bom! Parabéns! :clap::clap: :tada:

1 Curtida

Também fiz o quizz e gostei muito. Ferramenta interessante! Por mim já poderia divulgar. :raised_hands:t5:

1 Curtida

O pessoal da equipe de inova√ß√£o do Minist√©rio P√ļblico do Rio de Janeiro criou uma postagem no Medium que √© uma introdu√ß√£o √†s ontologias e web sem√Ęntica para quem ainda n√£o conhece o assunto. Recomendo a sua leitura:

Al√©m disso, uma boa dica para aprender √© tamb√©m ver os materiais dos cursos que ofertamos na Infraestrutura Nacional de Dados Abertos ‚Äď INDA, entre os anos de 2010 e 2013, com alguns dos mais renomados professores de universidades brasileiras. Apesar do tempo decorrido, a maior parte dos conhecimentos ainda se aplica at√© hoje.

http://wiki.dados.gov.br/Produto-GT4-Capacitacao-em-Ontologias-e-Padroes.ashx

Para conhecer as experi√™ncias de linked data j√° realizadas no governo federal e as ontologias criadas, recomendo ver o Reposit√≥rio de Vocabul√°rios e Ontologias do Governo Eletr√īnico ‚Äď e-VoG. Ele foi tirado do ar neste ano de 2020, mas ainda √© poss√≠vel ler todo o conte√ļdo na Wayback Machine do Internet Archive:

https://web.archive.org/web/20200220163026/http://vocab.e.gov.br/

1 Curtida