Fostering open ecosystems around data: The role of data standards, infrastructure and institutions

nitai · Dezembro 10, 2021, 11:27am

Artigo do Tim Davies sobre a importância dos padrões abertos para dados, o seu papel no desenvolvimento de projetos e seu impacto social. Leitura obrigatória para as instituições envolvidas, ou que deveriam se envolver, na definição de padrões de dados.

https://www.timdavies.org.uk/2021/12/03/fostering-open-ecosystems-around-data-the-role-of-data-standards-infrastructure-and-institutions/

ps. recomendação do @herrmann por outro canal!

rocha · Abril 21, 2022, 1:12am

(meu primeiro post aqui no fórum!!!)

Padrões de trocas de dados, inclusive toda infraestrutura em volta, são algo que tenho especial interesse pessoal. Não obstante eu tenho opiniões mais fortes sobre o quão importante são padrões abertos para não falantes de inglês/francês (inclusive países que seriam obrigados a criar versão em língua local)

Algumas passagens do link Fostering open data ecosystems around data~

Copiei algumas partes. Porém o artigo todo vale a pena!

An introduction to standards [Meta comentários: achei muito boa introdução do artigo; inclusive diferenças entre ISO e IETF RFCs!]

Support standards over apps (…) The biggest point I want to highlight here is a design one. Instead of designing platforms and applications, it’s possible to design for, and work towards, thriving data ecosystems. (…) Building data ecosystems through standardisation can crowd-in investment: having a significant multiplier effect.

Institutions (…) It requires users of schema and codelists to trust that they will remain open and free for use – rather than starting open and then later enclosed like the bait-and-switch that we’ve seen with many online platforms. (…) If we are to have a world of technical and data standards that supports social change, we need more support for the social change voices in the room.

Comentários meus sobre o link compartilhado

Fato que poucos aqui devem saber (e talvez até o autor do artigo): a ISO no passado ameaçou cobrar licenças de qualquer uso (até mesmo em aplicações genéricas) de tabelas como os códigos de países (isto é, não apenas pelo acesso a como usar elas, algo que acontece até hoje com paywalls, vide hXXps://twitter.com/TimSweeneyEpic/status/1368637789248626699_. Isso deu uma crise enorme na época a ponto de o W3C ameaçar considerar ter que criar alternativas. Infelizmente eu não tenho link exato nesse momento, mas teve tem nas listas de e-mail da W3C. A resposta dos advogados da ISO na época foi deixar de seguir adiante com a ideia (mas não houve qualquer promessa de não fazer no futuro)

Tenho alguns slides de uma apresentação que fiz em 2021 que acordo isso. O link em português está aqui

Bootstrapping-HXLTM_v028-Português-com-anotações-de-palestrante - Google Slides

Tem outros comentários que que eu poderia fazer aqui, mas eles fugiriam do tópico. Deixo no final explicações do porque sei mais sobre o contexto de tradução, porém do slide 104 ao 128 tem comentários sobre questões de licenças.

Resumindo (muito) minha ideia geral sobre ter padrões (iniciando por traduções) em línguas como português, já visando troca de dados internacional

Tenho várias opiniões sobre o tema, mas inviável sem quebrar em vários tópicos no fórum. Em geral tem uma forte tendência a:

Padrões abertos são essenciais
- infelizmente maioria dos padrões (mas em especial os ISO) podem até abusar de DMCA takedowns a qualquer iniciativa séria de tradução revisada (até mesmo no meio humanitário evitam compartilhar tabelas ISO sem adicionar muitos outros dados de outros padrões)
Padrões “internacionais” dificilmente se preocupam em compartilhar em formatos legíveis por máquina; quando tem, cada um usa algo diferente.
- A quantidade de retrabalho para quem redistribui (pense formatos da Open Knowledge, mais cada um criando packages para linguagens de programação) é enorme; com frequência os o que chega no usuário final está desatualizado, o que é muito ruim em especial no contexto humanitário e respostas de emergencias, em que as coisas mudam muito rápido.
- Resolvido problema de licenças e tipos arquivos para ter todos os dicionários, vem desafio de estimular quem re-empacotar manter super atualizado
O que realmente importa de padrões de dados costuma ser menos de 10% dos PDFs: são as tabelas de dados.
- Isso merece foco extremo para evitar erro humano (otimizadas para tradução perfeita), e requer mais línguas do que informações extras (que talvez maioria bem se importa tanto assim
Do que realmente importa, dos padrões técnicos existentes com frequência os termos em inglês tem problemas em inglês mesmo; fato é: quem cria padrões técnicos não entende da própria língua ou pode usar termos vagos para aprovar rápido o padrão
- não obstante, na falta de referência neutra (como números) tradutores encontram erros de terminologia que forçariam trocar padrão em inglês; a idéia de que uma língua arbitrária, mesmo inglês, é perfeita, é uma ilusão
- Nos slides da palestra, eu abordo isso a partir do slide 79; no final da apresentação tem as sentenças em inglês que resumem dificuldade de termos vagos quando usados na ONU e na União Européia, e como interpretes e tradutores odeiam eles!
Padrões de dados focados em um tópico (exemplo: opções de sexo biológico; opções de identidade de gênero; opções de estado civil) são extremamente reusáveis em padrões que sugerem padrões mais completos (como campos de formulário de dados).
- Por isso faz muito sentido reuso não apenas como indicar documentação (como ISOs fazem), mas tudo estar em formatos que permitem reuso imediato para gerar padrões mais completos
Desde que otimizado desde o início para receber traduções voluntárias (Translators Without Borders faz com texto comum; mas aqui estamos falando de tradução técnica; quebrar em partes menores; micro-voluntariado) é possível conseguir em várias línguas e já sair usando em software antes de “homologação”
- Dito de outra forma: é viável iniciar algo como dicionários de termos com códigos usados em trocas de dados
  - exemplo 1: uma planilha a nível de país, que lista qual campo de dados cada região usa em suas publicações, e essa planilha é que é usada para crawlers antes de existência de cada estado compartilhar dados no mesmo padrão
  - exemplo 2: mesmo que exemplo 1; mas a planilha/dicionário editada por voluntários que anotam o que cada país usa para mesmos conceitos)
- Levaria um tópico inteiro essa discussão, mas o argumento é que resposta de emergência é tão rápido, que antes mesmo de cada região adotar padrão único, em vez de apenas “traduzir” cada conceito/campo, seria possível explicar em local centralizado o que cada região está usando.
Enfim: padrões de dados são lentos demais para resposta de emergência (não apenas COVID-19); a mentalidade do mundo é tal, que vacinas ficariam mais prontas do que um padrão de dados de como distribuir elas!. Mesmo se existirem automação pesada para gerar arquivos imediatamente usáveis a cada versão de padrão já com tradução de voluntários não resolveria a mentalidade típica do que o público médio tem por “padrões de dados”.
- Não obstante, chamar de dicionários algo que permite criar padrões de dados (analogia: selecionar apenas parte do do que tem nos dicionários para recomendar como um padrão) contorna essa mentalidade. O que começa com dicionário + traduções pode evoluir em dias para padrões de dados (ou no mínimo scripts que convertem um padrão para outro).

Era isso que eu tinha a dizer para meu primeiro post aqui!

Disclaimer (Dos porquês tenho essas opiniões)

Boa parte dos comentários acima são porque tenho trabalhado em cima disso nos últimos dois anos (o gatilho inicial foi a pandemia do COVID-19). Começou com o Patrão HXL (The Humanitarian Exchange Language, hXXps://hxlstandard.org/) que permite ETL otimizado para resposta de emergência; mas quase tudo tinha problemas de licenças para compartilhar os dicionários até mesmo para uso em Inglês . Já no início ficou claro que era mais fácil pedir autorização de quem produzia conteúdo a nível regional do que de IGOs (que são muito burocráticas, e geralmente nem tem muito conteúdo disponível).

Do ponto de vista de ferramentas do que temos feito: desde programas para converter arquivos até compilação de dicionários (algo criativo) estamos fazendo domínio público. Até mesmo uso de taxonomia numérica (VS chamar por nome em alguma língua) para referenciar dicionários (e acessar conceitos internos, quem entende URNs pode imaginar do que estou falando) tem uma fundamentação teórica tanto para reuso imediato por máquinas como para permitir bootstrapping de qualquer língua (inclusive português/espanhol). Tem outras coisas chatas, mas os porquês tem inspiração vem desde (em ordem de nascimento): Carl Linnaeus (a pessoa que nos classificou como Homo sapiens), James Murray (editor do Oxford English Dictionary; que dividiu tarefa com falantes de inglês ao redor do mundo; tem até um filme do Mel Gibson de 2019 sobre a edição do volume com a letra “A”) e, claro, Eugen Wüster (um esperantista que influenciou foi fundamental na criação do ISO/TC 37 que se tornaria coração da organização ISO, bem como seus trabalhos como lexicógrafico foram fundamentais para o que é hoje Europe IATE hXXps://iate.europa.eu/ e, indiretamente, o hXXps://unterm.un.org/). Um dos motivos para criar tecnologia otimizada para organizar em escala dicionários úteis em formato de máquina não é só porque sou do Brasil como maioria de vocês aqui, mas discussões de padrões de dados (e de fato adoção/estímulo a nível de governo) no Brasil é até melhor que média de países do norte global, que é super focada em distribuir em PDFs e copyright agressivo para impedir (ou eternamente considerar de segunda classe) traduções até mesmo nossa língua materna.

Quando o HXL-CPLP como grupo de usuários fora da ONU do HXLStandard foi fundado (e antes disso veio o covid-taskforce-cplp) a ideia de que haveria conteúdo técnico para traduzir da comunidade humanitária internacional provou ser limitada. Até mesmo minhas discussões com pessoal UN OCHA, por eles trabalharem com dados agregados, eles não sabiam nem mesmo em inglês sobre microdados sobre Covid que já não fosse publico por outras instituições. Por isso, quando digo que até mesmo um gerente de informação que trabalha em secretaria de saúdo de cidade de interior (não apenas do Brasil), mesmo falando apenas português (ou outra língua local), tem mais chance de dar opiniões úteis sobre o que é necessário, faz sentido.

Fostering open ecosystems around data: The role of data standards, infrastructure and institutions

Algumas passagens do link Fostering open data ecosystems around data~

Comentários meus sobre o link compartilhado

Resumindo (muito) minha ideia geral sobre ter padrões (iniciando por traduções) em línguas como português, já visando troca de dados internacional

Disclaimer (Dos porquês tenho essas opiniões)