O valor dos dados: publicar novos dados pode aumentar ou diminuir o valor de dados existentes?

herrmann · Abril 24, 2020, 2:28pm

Recentemente, Leigh Dodds, provocado pelo relatório sobre o valor dos dados divulgado pelo Bennett Institute of Public Policy da Universidade de Cambridge, publicou em seu blog um par de postagens sobre o efeito da publicação de novos dados sobre o valor dos dados existentes, já publicados.

Segundo ele, o valor dos dados existentes pode ser aumentado pela publicação de novos dados nas seguintes situações:

Comparação. Quando há dois ou mais datasets, é possível compará-los, encontrar diferenças, semelhanças, correlações.
Enriquecimento. Novos dados podem enriquecer dados existentes ao acrescentar novas informações.
Validação. Novos dados podem ajudar a identificar e corrigir erros em dados existentes.
Ligação. Um novo conjunto de dados pode servir de elo entre diversos outros datasets, possibilitando novas análises. É como uma peça faltante em um quebra-cabeças.
Armação. Um conjunto de dados pode nos ajudar a organizar outros dados ou a colecionar novos dados.
Aumento da cobertura. Adicionar novos dados do mesmo tipo a uma coleção existente pode nos ajudar a obter um conjunto de dados maior, mais completo. Dados agregados a partir desses dados passam a ser mais representativos do mundo real. Com o aumento da cobertura temporal ou espacial, novos usos se tornam possíveis.
Aumento da confiança. Se os novos dados medem algo que já registramos, a repetição das medições ajudam a reduzir a incerteza que temos sobre a precisão dessas mediadas. Por exemplo, um conjunto de leituras de sensores de estações climáticas em uma mesma área.

Por outro lado, a publicação de novos dados também pode diminuir o valor de dados existentes, já publicados. Aqui não necessariamente ele está falando de valores econômicos. Podem ser também outros efeitos adversos ocasionados pela publicação de novos dados.

Prejuízos que levem à retração e diminuição da confiança. A publicação de novos dados pode levar à reidentificação de dados pessoais em dados já publicados anteriormente, por permitir novos cruzamentos e inferências. As consequências dos danos da reidentificação ou inferências indesejadas podem levar à retirada de dados já publicados, a diminuição de seu escopo e aumentar a resistência de outras organizações em publicar dados semelhantes.
Redução da qualidade geral. Novos dados podem enriquecer, validar ou melhorar dados existentes. Mas também pode ter o efeito oposto se for de baixa qualidade.
Criação de competição desnecessária ou aumentar a fricção. Conjuntos de dados relacionados ao mesmo objeto podem competir entre si. Ter diferentes níveis de qualidade, confiabilidade, termos de licenciamento, etc. Essa competição não é necessariamente positiva, pois pode privar a comunidade dos efeitos de rede (“network effects”) da ligação entre dados diferentes, uma vez que eles podem incompatíveis entre si. Ter diferentes versões dos mesmos dados também podem deixar em dúvida quem os pretende utilizar sobre qual é a fonte mais confiável.
Construção de fundações ruins. Os dados muitas vezes são usados para construir uma infraestrutura para um setor ou para encarar um desafio específico. Se esses dados não forem bem mantidos e não tiverem os recursos necessários depois de um tempo, a energia dispensada para construir as comunidades, ferramentas e conjuntos de dados sobre essa infraestrutura podem ser desperdiçados. Isso reduz o valor de outros conjuntos de dados existentes que poderiam ter sido utilizados em vez disso para construir uma fundação melhor.

E você, concorda com os argumentos levantados por Leigh Dodds? Consegue imaginar outras situações em que a publicação de novos dados possa impactar, positiva ou negativamente, no valor dos dados que já estão publicados? Comente aqui.

ppkrauss · Abril 25, 2020, 9:48pm

Olá, parece uma discussão interessante, mas não entendi o que quis dizer de “dois datasets” ou “novos dados”… E seguir os links do Leigh Dodds não ajudou muito.

Poderíamos recorrer a modelos, teorias e visões. Mas não é uma questão tão filosófica, é só para alinhar a discussão mesmo — aqui entre nós e talvez de forma mais didática, antes de entrar nos meandros do valor da publicação de dados.

Vou tentar exemplificar, imaginando casos fictícios:

Maria publica dados empíricos (dataset1) que utilizou para deduzir a aceleração da gravidade no Marco Zero de São Paulo, g_sampa, através de pêndulos.
Diego publica os dados (dataset2) que levaram ao seu valor de g_sampa através de bolinhas de aço em queda livre.
Isabel publica dados resultantes de simulação por computador, dataset3, que integra os dados de Joana com os de Diego, fornecendo tanto um g_sampa mais preciso, como um índice de confiabilidade.
Roberto publica dados, dataset4 e dataset5, que são uma mera cópia dos dados de Maria e Diego, mas em arquivos CSV, mais abertos e organizados.
A Marta refaz o experimento do pêndulo de Maria, muda pouca coisa, mas são dados diferentes, dataset6, além de representarem uma confirmação/reforço para o dataset1.

Imaginar também que a sequência acima é a sequência temporal em que foram publicados, que define ineditismo ou “novidade”.

Enfim, comentários e perguntas sobre o significado…

Os datasets de Roberto são “novos” em que sentido?

… E se o Roberto errou na cópia, estaria propagando erro: ele queria ajudar mas acabou atrapalhando! No que isso enriquece?

Os datasets da Isabel são “novos” em que sentido?

… E se a Isabel errou na cópia, ou errou na simulação … Mas antes fez muito sucesso no Twitter, estaria propagando erro: neste cenário ela queria ajudar mas acabou atrapalhando!

Os dados de Diego são “novos” em que sentido?

Os dados de Marta aumentam a cobertura dos dados de Maria, é isso? E os dados de Diego e de Isabel, não aumentam?

… Poderia enunciar outras perguntas e problemas, mas o objetivo principal foi criar um contexto, uma referência um pouco mais “mão na massa”, apesar de imaginária.

Nota. Resta ainda alinhar o jargão, “o que é dataset ?”. Aqui para nós um caso concreto já responde. O dataset1 (da Maria) é simples, uma lista de valores T_i de tempo cronometrado, ainda assim, a rigor, é um pacote de informações que inclui o valor de L, o comprimento do pêndulo. Num pêndulo padronizado pode-se omitir L, mas aí essa informação entra como metadado… Em ambos os casos o ideal é o dataset ser uma coisa melhor definida, como no FrictionlessData.

herrmann · Abril 25, 2020, 10:54pm

Peter, acho que os exemplos iniciais que você deu são exemplos em que o valor dos dados aumentaria. Já este seria um exemplo em que o valor diminuiria:

Dos dados que representam experimentos realizados em outro lugar ou tempo (Diego, Marta) pode-se dizer que aumentam a cobertura, segundo essa proposta do Dodds, uma vez que, a priori, parte-se da hipótese que a variável medida (aceleração da gravidade) poderia variar no tempo e no espaço.

Em geral, a ideia do texto não é se prender aos exemplos de situações dados pelo Dodds, e sim trazer uma reflexão de que a publicação de dados é capaz de alterar, para mais ou para menos, a percepção de valor atribuída a dados que já estavam disponíveis.