TL:DR: sua resposta tem desdobramentos sobre estratégias maiores do que vou comentar aqui; então agora vai um a resposta até processar tudo. Além de convenções de padrões de troca de vocabulários e abstrair complexidade de especialistas terem voz final sobre rascunhos (que podem ou não virar convenção de setor, de país, ou internacional) já estou preocupado com seguinte: arquivamento (preferencialmente além de apenas otimizar exportar formato livro) , uso de numeração interoperável mesmo fora da Internet e, (quando passar a exigir ter uma cadeia de decisão) processo de homologação minimalista. Os dicionários que forem sendo compilados com dados de referencia do Brasil já vão automaticamente permitir serem lincados uns com os outros (tópico 3.3 falo disso).
Nessa resposta enorme, divido em 1. Informações de contexto e (do que consegui resumir nesse momento, ou seja, isso é uma tanto uma tempestade de ideias como pode estar incompleto ou mudar de opinião com o tempo) o 2. De (algumas) ideias acionáveis. e 3. De protótipos funcionais (apenas parte de arquivos dos dicionários)
1. Informações de contexto
1.1. Comparação entre referências endossadas pela OCHA, padrões da ISO e os datasets (de projetos relacionados) da Open Knowledge
Nota: comento na forma como a ISO usa número para seus padrões como um exemplo para entender a ideia de usar números para nomear os dicionários focados em cada tópico. Se for para endossar, melhor diretamente organizações humanitárias ou organizações em cada país que estejam interessadas em padrões de licença aberta, traduzidos em mais de 100 línguas, e em formatos imediatamente consumíveis por software. Nada impede também de o número genérico da versão internacional ter nome/código diferente do nacional
Embora para arquivamento de longo prazo a melhor analogia seja a biblioteca mais antiga (não raro elas são muito mais antigas que a própria fundação da ISO e da ONU) para quem não conhece os CODs, uma analogia aqui seria a ISO, porém com uma distribuição de dados parecida com o que alguns projetos via Open Knowledge fazem.
Um fato curioso sobre a ISO (que a maioria das pessoas não sabe, mas poderia estranhar, pois ela mantém um copyright ferrenho): a ISO não cria os próprios padrões que a maioria aqui usa. A exceção é, talvez, aos do TC37 sobre lexicografia/organização de padrões como os da ISO. Praticamente todos os vocabulários relevantes dela (códigos para língua, códigos para locais, etc; obviamente não se aplica a padrões que são especificações técnicas não relacionadas a troca de dados) são re-empacotar e dar número para algo feito por organização externa e, então, dar um número único para o padrão.
Uma analogia ao que a OCHA é quando ela distribui data sets prontos para uso (link a seguir) é, mais ou menos o que alguns projetos da Open Knowledge falarem:
Como referência, as automações que a OCHA usa (isso não apenas CODs) para puxar dados de outros lugares, alterar o formato (normalmente para o HXL Standard), e então re-publubiar no CKAN é este aqui
A ideia de “pegar dos outros e re-empacotar” e deixar automações rodando por ano não é algo absurdo. Na verdade é uma forma de garantir padrão mesmo que fontes não sejam padrões!. Porém isso não é feito em escala (que é minha ideia aqui; voltada em fazer em produção) no caso de vocabulários usados para troca de dados (ou ao menos, não os que não sejam principalmente COD-ABs). Existe interesse de voluntários ao redor do mundo para ajudar com traduções de terminologia se tudo já tiver sido preparado para usos como os que são feitos no meio meio humanitário. Mas isso esbarra num problema: tanto projetos da Open Knowledge como a OCHA tem problemas de licenciamento, e isso fica óbvio em vocabulários. Por isso que até mesmo quando é necessário meramente compilar traduções terminológicas que já dão domínio público, fazer isso volta de chaves primárias que têm licença (ou “traduzir padrões ISO”) são algo que vale a pena ir direto para ideia de criar padrões abertos desde o zero; quando relevante ainda é possível relacionar com padrões existentes.
1.2 Silos de dados são uma realidade; impraticável um armazém de dados global (contexto humanitário)
Ao menos no contexto humanitário, um fato observado é que ideias de criar um silo de dados único onde todos concordam é irrealista. Entre outros fatores:
- Gerentes de informação podem ter opiniões técnicas sobre melhor ferramenta para organizar seus dados
- Gerentes de informação podem ter que dar suporte a sistemas legados
- Gerentes de informação podem ser responsáveis por tanto conteúdo que não saberiam por onde começar
- A cultura do departamento pode intencionalmente não querer que seus dados sejam compatíveis sem conversão com outros padrões
Países podem ter outros motivos. No Brasil, por exemplo, a LGPD é usada para impedir que dados de pessoas para um fim sejam pedidos por outros departamentos sem autorização dessas pessoas. Meu argumento aqui é que silos de dados são uma realidade. Essa realidade não vai mudar.
Uma das propostas é justamente permitir sempre que dicionários sejam exportados em vários formatos é um meio de ajudar automação nos pontos em que os responsáveis teriam que tranportar dados de um lugar para o outro.
1.3 Da necessidade de dados de referência estarem a todo momento prontos para resposta de emergência (contexto humanitário)
Nota: embora esteja usando resposta de emergência como exemplo, abordagens que funcionem até casos extremos tendem a ser mais fáceis de serem adotadas em situações onde há tempo.
Não só porque cada emergência pode envolver desafios novos para quem atua como gerente de informação para ajudar países novos, mas também pelo fato anterior (que silos de dados são uma realidade) a todo momento armazéns de dados tem que ser re-criados do zero.
Outro motivo forte para isso é que com frequência quem já tem silo de dados (que foram testados e deixados pronto para uso) tende a estar usando tabelas antigas, tipicamente desatualizada há anos, por isso não basta estar usando dados de referência, elea devem estar atualizados.
Temos que tem em consideração que toda organização que cria dados de referência sempre vai ter carinho pelo próprio trabalho, e assumir que toda cadeia de usuários realmente atualiza os dados na frequência adequada. Não obstante, para implementadores, existem tantos, mas tantos dados de referência, e cada um requer ler documentação e afins, criar scripts de conversão, etc, que nem mesmo uma organização que promove dados de referência em um tópico deve ter seus sistemas internos atualizados com dados de referências das demais!
Embora o contexto humanitário fique mais claro (pois é otimizado para recriar do zero, com frequência de dumps em CSV), esse problema já acontece no serviço público em geral e em provedores de software com aplicações para o respectivo país.
1.4 Dicionários focados são mais fáceis de manter (analogia: dicionário maior pode importar outros)
Isso aqui envolve mais empirismo meu do que referências que eu tenha lido, mas por mais que as ferramentas que tenho usado permitem criar subníveis de conceitos e códigos de forma super rápida e já distribuir com traduções enciclopédicas, não dividir o que pode ser prejudica reusabilidade.
Um exemplo claro é que geralmente cada de formulários HTML se tornam um novo grupo de dicionário
1.4.1 E, se for seguir a risca como homologar cada dicionário implícito de formulários, são áreas completamente diferentes
Exemplo não intuitivo. Um campo de formulário (como os da Cruz Vermelha) que tenha de identidade de genero e outro de sexo biologico, mesmo que a criação rápida de dicionários dedicados pareça ser mesma coisa (afinal, muitos lugares usam até mesmas legendas) mas quem poderia opinar sobre tais conceitos são até de áreas diferentes. Não estou dizendo que não dê para rascunhar dicionários, mas a validação deles pode demorar anos.
Mas temos outros casos mais óbvios, mas são super comuns em quase tudo. Campos como nomes e códigos de lugares (como municípios do Brasil) para usuário final ou desenvolvedor de software que copia de algum lugar pode não fazer diferença: está mais preocupado em não precisar editar manualmente.
1.5 Quantidade alta de dicionários temáticos
Uma implicação direta do 1.4 é que a melhor forma de otimizar para manutenabilidade é ter muitos, muitos dicionários temáticos. A quantidade é tão alta, que já vale a pena nomear por números, e não burocratizar quando for realmente necessário criar.
1.5.1 Da expectativa de usuários de encontrar “todas as palavras no dicionário”
Um problema documentado durante a produção do A New English Dictionary on Historical Principles; Founded Mainly on the Materials Collected by The Philological Society é que (por analogia) colaboradores para tarefas de lexicografia, se a gente não pedir explicitamente para priorizarem o que é mais comum, vão se focar em termos mais exoticos. Isso não só torna a tarefa de compilação mais demorada, mas frustra usuários do resultado final.
Embora cada grupo de dicionários pode eventualmente ter especialistas para decidir o que deve estar lá (e, evitar potencial viés contra minorias) pelo menos a decisão de quais grupos de dicionários deve-se ter (o que vem antes da existência de especialistas) preferencialmente deve estar alinhada com o que é necessário no mundo real para troca de dados, e não nossa opinião sobre o que deveria ser trocado.
Trivia: A lexicografia tradicional usa de algumas ferramentas para descobrir quais temas são mais importantes, e faz isso ao importar texto de muitas fontes e então permitir analisar a frequência em que palavras aparecem lá. Porém não sei dizer se a mesma inferência é aplicável ao nosso caso, que tem prioridade em saber quais campos de formulários são mais comuns.
2. De (algumas) ideias acionáveis
2.1. Do arquivamento de longuíssimo prazo
Reparem o seguinte: de organizações que se envolveram com web semântica no mundo, as que são bibliotecas (em oposição que tinha experiência em tecnologias; inclusive projetos de pesquisadores) têm maior chance de estarem ainda no ar.
Mesmo que serviços de cada setor do Brasil tenha sua URL ativa, vejo que temos uma oportunidade perdida aqui. Ao que tudo indica isso (de usar bibliotecas) aconteceu no Brasil, mas o formato usado foi… imprimir livros! ! 
Sabemos que existem outras formas de compartilhar arquivos semânticos e que tais formatos vão evoluir com as décadas (se não RDF com SKOS, até mesmo CSVs, que são até mais leves que PDFs; espaço não é um problema; escaneamento de livros de séculos atrás podem chegar a mais de 1 GB). Porém acho que além dos PDFs de livros, se houver um esforço também de ter alternativas digitais (mesmo que não seja obrigatório, mas ao menos a forma como bibliotecas guardam arquivos), estamos protegendo o esforço dos colaboradores.
Relembrando do seguinte: glossários, dicionários, terminologia, possivelmente até mapas cartográficos… são relevantes não apenas para troca de dados, mas em uma interseção com o que se espera de bibliotecas. A ética de trabalho da profissão de bibliotecas entende a ideia de destruir algo porque deixou de ser relevante para a opinião atual o equivalente a queimar livros.
2.1.1 Do arquivamento de curto prazo (sem opinião)
Não tenho opinião sobre se algo mais estruturado (como endpoints SPARQL, ou URLs fixas) deveriam ficar sob responsabilidade da biblioteca central. Na verdade, até a Wikidata é focada na última versão da informação (e já é comum bibliotecas do mundo usarem Wikidata para armazenar dados estruturados delas) então conforme os dicionários ficam mais preparados isso já permite serem integrados lá.
2.1.2 De algum arquivamento que permite pessoal acadêmico usar para ser citado (sem opinião); mas tomando cuidado para evitar competição futura
Contexto: alguns pequenos dicionários (por exemplo: imagine algo que poderia se tornar equivalente de uma ISO/IEC 5218, mas para identidade de gênero; para uso internacional; na verdade a gente até precisa de uma versão aberta de um ISO/IEC 5218, mas até isso poderia precisar de validação científica) poderiam ser bons o suficiente para continuarem serem reusados por séculos e é justamente isso que queremos: algo que tenham tendência, não só do ponto de vista tecnológico, mas de competição entre criação inicial e futuros mantenedores, de não valer a pena criar algo novo simplesmente para ser diferente.
Fato: com uma quantidade altíssima de pequenos dicionários uma das formas de garantir uma homologação/validação científica inicial é… independe de como estivermos usando em produção anos antes, eventualmente um ou mais especialistas da área acadêmica publicarem primeiro tema criticando/recomendando/validando versão inicial. Isso pode iniciar do Brasil, pode vir de outros lugares, mas na falta de uma comissão internacional, as coisas podem começar pequenas.
Problema: se a versão genérica, reusável a nível internacional, ficar com CC-BY dos acadêmicos iniciais, ou ficar muito claro que alguma região do mundo em especial é “dona” deles, isso vai gerar competição. Isso se torna ainda mais complicado se considerarmos que uma pequena parte desses dicionários, similar do que aconteceria com nomenclatura cientifica onde o primeiro “descobridor” da um nome, ficaria por séculos sem alterar.
Como NÃO acho interessante isso ser otimizado: a ISO resolve ao a própria organização “ser dona” de padrão, e permitir que com passar do tempo trocar quem dá manutenção. Porém sou da ideia de que códigos internacionais já deveriam de alguma forma ser domínio publico e a adoção ser voluntária. Outra forma que a ISO “evita” padrões secundários é direitos autorais agressivos, que é justamente o que não queremos, pois adoção deveria ser voluntária e meritocratica.
Situação que poderia ser otimizada: Assumindo que padrões iniciais (que forem apenas criados sem validação alguma, com numeração genérica, testados em produção, …) já poderiam ser domínio publico, na falta de comissão internacionais, a gente permita que acadêmicos tenham uma forma de validar (talvez até anexar a convenção de dados que eles validaram) e ajudar que eles sejam de alguma forma encontrados por outros, MAS… isso não poderia ser feito de forma que gerasse competição entre futuros acadêmicos ou desinteresse de manter o padrão.
2.2 Da ideia de ter voluntários (e setores compartilhados) atuarem como copista como meio de otimizar para exportar vários formatos
- Contexto
- Exceto por quem provavelmente já trabalha com ontologias ou RDF, o padrão é assumir que todo mundo que de fato organiza o que queremos não saberia como empacotar algo que justamente pode ser usado para documentar outros dados.
- Outra situação rara são casos onde alguma automação é possível. Geralmente isso só vai ocorrer quando a quantidade de conceitos é alta, o que fica mais claro em tabelas de código (exemplo: tabelas já publicadas de códigos do IBGE, provavelmente de outros departamentos como IDs de unidades de saúde).
- Implicação
- Meu argumento principal é que a maioria dos conjuntos de vocabulários são pequenos e (por limitação de quem os decide) alterado com pouca frequência.
Embora o PDF do post original (glossário de termos) seja uma exceção, a maioria do que de fato vai em um vocabulário (o que é relevante para uso em software), mesmo em um PDF de 100 páginas (que normalmente explica como ser usado, exemplos, etc), são umas tabelas de duas ou três páginas. Desde que a burocracia esteja resolvida (e licença é uma delas), mesmo se surgisse dezenas de equipes no Brasil com candidatos a vocabulário em áreas em que são especialistas, a tarefa de “copiar e colar” não conseguiria saturar quem faz isso.
No caso de algo totalmente governamental, 90% de protótipos de dicionários podem ter nenhum apoio financeiro (ou ser algo esquecido) que ainda assim é viável que sempre tenha gente nova capaz de atualizar/ajudar especialistas sem que eles se importam em como explicar os formatos de arquivos exportados. Na verdade, até mesmo os antigos, poderiam ser re-generados com correções de esquemas de dados.
2.2.1 De voluntários (pro bonō publico)
Pelo menos os dicionários que de alguma forma sejam relevantes para uso humanitário (sentido: aliviar sofrimento humano) eu pessoalmente consigo me comprometer na questão até “do copia e cola”, e faço pro bonō publicō. Não obstante, a maioria desse tipo de referência já tem uma tendência forte a ter gente o tempo todo, outros brasileiros querendo ajudar de alguma forma, então eventualmente seria viável redundância nisso. O argumento aqui é que o que for de relevância pública e estivesse minimamente pronto para ser convertido, não seria por falta de ajuda.
Outro ponto é que causas humanitárias, resposta a desastres naturais, etc, naturalmente tem uma tendência fortíssima a ter ajuda até que quem tipicamente estaria em situação de oposição (partido político VS partido político; força policial vs crime organizado; etc).
2.2.2 De compartilhamento dentro do governo de tarefas em comum sobre lexicografia (não pro bonō publico, mas talvez padrão de cooperação)
Mesmo software e estratégias usadas para enriquecer usadas com ajuda de voluntários em geral, pode ser aplicada a questão do governo, desde que as tarefas cruciais, mais especializadas (tipicamente as centralizadoras que são caras demais para iniciar, mas depois podem escalonar), por padrão sejam genéricas, o que implicaria a infraestrutura ou o profissional (mesmo que pago por um departamento) estar aberto a processar dados de outros.
Digo isso porque, mesmo resolvida alguma solução neutra para armazenar dados , como o comentário em 2.1., sempre haverão tarefas que já não sejam meramente usar software, como as de copista e o impacto na sociedade pode não ser suficiente para gerar interesse de pessoas voluntárias.
2.3 De Idea de vocabularios (inclusive os sem atualização) serem exportados em diversos formatos de arquivos independente da fonte original em toda versão nova da biblioteca inteira
Resolvido 2.2 (que naturalmente implica em centralização), ficaria em aberto quais formatos de arquivos exportar cada dicionário. Essa decisão de formatos pode ser mais alinhada com demanda de usuários (que podem ter usos de caso como 1.2 e 1.3) e, se for feita com um tipo de dicionário, os demais do mesmo tipo também são re-exportados com novo formato.
Algumas coisas são conversões triviais; por exemplo, para algo já em RDF/XML, também oferecer em Turtle. Não obstante, o ideal é padronizar de tal forma que (aqui um exemplo) se usuários quiserem ajuda para importar em base de dados SQL, haja uma forma de fazer isso (mesmo que seja exportar script pequeno que tem instruções de como carregar dados de um CSV na tabela com nome correto).
Notem que com o passar dos anos, os formatos exportados vão evoluir; até mesmo os RDF da W3C eventualmente também poderão ser exportados em JSON-LD (então é natural ter que re-exportar mesmo aqueles que estão em esquema não obsoleto). Exceto talvez por algo já arquivado a longuíssimo prazo faz sentido que arquivos de trabalho acompanhem padrões de arquivos que forem convenientes para uso imediato. A todo momento deve ser possível subir um armazém de dados.
Esse ponto creio que vale discussão separada. Inclusive consigo provas de conceito funcionais
2.4 Compatibilidade com dados interligados e web semântica pode exigir uso de URNs para lidar bem com arquivamento de longo prazo
Uma das formas de serialização é a chamada web semântica. Não obstante, as URLs vão perder sentido com o passar do tempo. Quando relevante, a garantia de identificação única poderia ser mais parecida com DOI ou ISBN (aka uma organização seleciona o que é relevante) e não URLs. Outro desafio é que com frequência termos usado para descrever conceitos eventualmente percebe-se que foi uma má escolha para representar aquele conceito, então surge o risco de o que fazer com o termo usado como chave primária.
A discussão seria longa, mas tanto para facilitar o trabalho de lexicografia (os copistas humanos) como permitir reuso de mesmo padrões ao longo dos anos, até mesmo padrões que especialistas já não usarem números opacos, vale a pena a chave primária ser numérica. Porém as fundações da web semântica, com RDF, são documentadas usando URIs e URIs englobam pelo menos URLs e URNs.
Esse é um outro ponto que eu faria discussão separada.
2.5 Do ponto de vista de aprovação, analogia com fluxo de trabalho da IETF e ISO (porém não burocratizar até ser necessário)
Essa é a parte que estou menos certo do melhor processo. Porém os rascunhos de dicionários que tenho feito dão a entender que mesmo que 2.1 armazenamento de longo prazo e 2.2 copistas já estejam funcionando, se o objetivo for algo a nível de Brasil (ou então padrão internacional) o fluxo completo poderia envolver algum nível de formalização. Um caso mais extremos (e lento demais) seria como a ISO faz:
A IETF também tem um processo (embora ele seja ainda menos genérico que a ISO):
2.5.1 Cooperar com provedores de fontes primárias (quando eles quiserem cooperar)
Padrões que forem principalmente um empacotamento de algo que já é endossado por uma organização no Brasil, mesmo após o empacotamento, faz sentido se eles tem interesse de cooperar de alguma forma (ou mesmo re-distribuir também as versões adicionais).
Não obstante, notem que a versão produzida pode já ter links com outros padrões nacionais e internacionais (talvez até mesmo traduções da Wikipédia). Então não raro as fontes primárias vão estar cientes, vão até usar para resolver inconsistências, mas pelo menos o nome de como chamar o recurso genérico poderia evitar confusão. Em caso extremo, tal abordagem também mitiga situações (as que forem distintas o suficiente) onde algum provedor de algum país pode querer restringir a distribuição.
Em especial para padrões que não são genéricos o suficiente para ser internacionalização (código de lugares são exemplo óbvio), se a chave primária já é numérica e existe uma política clara de consistência (exemplo: fins estatísticos), sou da opinião de o dicionário tenha como chave primária aquela referência e daí tenha como uma propriedade interlinguistica o tal código repetido. Essa propriedade interlinguisrica passa a ser documentada em outro dicionário do que ela representa.
Um local que usa conceito de propriedades é a Wikidata
https://www.wikidata.org/wiki/Wikidata:Database_reports/List_of_properties/all
E um exemplo de propriedade que já existe lá são os códigos do IBGE
Cuja discussão de como foi aprovado está em
https://www.wikidata.org/wiki/Wikidata:Property_proposal/Archive/27#P1585
Esse é um exemplo perfeito (nem é preciso ir na Wikidata propor novo atributo). Mas a maioria das chaves primeiras do Brasil a tendência é usarmos algo que informalmente seria uma dessas propriedades.
2.5.2 Da ideia de não procurar validação nos primeiros anos (ou CADA setor define própria burocracia)
Essa ação é implicação direta do 1.4 e 1.5 e especialmente relevante em dicionários que nem mesmo tem alguma ISO. As áreas que mais têm carência de padrões são as que seriam prejudicadas se burocratizarmos.
O motivo para não deixar uma área ditar regras de o que mereceria ou não estar em outra está no 1.5.1: é necessário compilar pelo menos o que é comumente trocado, mesmo que fique claro erros, mas tão logo começa a ter interesse de especialistas na área, o ideal é refletir o consenso no limite do que computação permite.
2.6 Da ideia de servir de interligação entre especialistas de diferentes regiões
Boa parte das discussões sobre padrões internacionais para trocas de dados hoje em dia requerem saber inglês e eu pessoalmente acho isso uma oportunidade perdida.
Meu último ponto é sobre implicitamente já haver preocupação para permitir que os dicionários ajudem outras regiões sem que isso requeira que especialistas locais precisem saber outras línguas, mas ao mesmo tempo sem tirar autonomia deles de ter padrão local diferente (não mera questão de tradução, mas conceito é diferente). Um desafio é que, diferente do que pode acontecer com quem trabalha com tecnologia com inglês, na maioria das vezes, especialistas de cada área técnica de cada país dificilmente teriam alguma língua em comum. Não obstante, para conteúdo que vai nos dicionários, a cooperação constante de tradução permite um acesso justo em relação a outras alternativas. Essa abordagem pode permitir autonomia local visto que por padrão toda tecnologia para converter os dicionários não obriga escolha de uma “língua de trabalho”.
Algumas coisas são extremamente locais, mas ainda assim o formato de arquivo e a forma de catalogar poderia permitir interoperabilidade internacional. Um caso são regiões administrativas onde tanto UN P-Codes e ISO 3166-2 dividem por níveis. Nesse caso, sempre que possível deveríamos permitir que software para resposta de emergência que funcione com geografia do Brasil seja portável para outros países que poderia haver interesse de ajuda humanitária.
Outras, por estarem em alguma área ligada à ciência, tendem a ter uma tendência a ter conceitos em comum, mas países podem ter algumas especializações. Uma das vantagens de quebrar em dicionários menores é que aumenta a reusabilidade e apenas onde houver conflitos, a nível regional, partes menores são sobrescritas. Esse é um dos casos onde sempre que possível, uma proposta de padrão internacional poderia já tolerar numerações explícitas que não seriam usadas.
(continua no proximo post, excedeu limite de 30000)