O valor dos dados: publicar novos dados pode aumentar ou diminuir o valor de dados existentes?

Recentemente, Leigh Dodds, provocado pelo relatório sobre o valor dos dados divulgado pelo Bennett Institute of Public Policy da Universidade de Cambridge, publicou em seu blog um par de postagens sobre o efeito da publicação de novos dados sobre o valor dos dados existentes, já publicados.

Segundo ele, o valor dos dados existentes pode ser aumentado pela publica√ß√£o de novos dados nas seguintes situa√ß√Ķes:

  • Compara√ß√£o. Quando h√° dois ou mais datasets, √© poss√≠vel compar√°-los, encontrar diferen√ßas, semelhan√ßas, correla√ß√Ķes.
  • Enriquecimento. Novos dados podem enriquecer dados existentes ao acrescentar novas informa√ß√Ķes.
  • Valida√ß√£o. Novos dados podem ajudar a identificar e corrigir erros em dados existentes.
  • Liga√ß√£o. Um novo conjunto de dados pode servir de elo entre diversos outros datasets, possibilitando novas an√°lises. √Č como uma pe√ßa faltante em um quebra-cabe√ßas.
  • Arma√ß√£o. Um conjunto de dados pode nos ajudar a organizar outros dados ou a colecionar novos dados.
  • Aumento da cobertura. Adicionar novos dados do mesmo tipo a uma cole√ß√£o existente pode nos ajudar a obter um conjunto de dados maior, mais completo. Dados agregados a partir desses dados passam a ser mais representativos do mundo real. Com o aumento da cobertura temporal ou espacial, novos usos se tornam poss√≠veis.
  • Aumento da confian√ßa. Se os novos dados medem algo que j√° registramos, a repeti√ß√£o das medi√ß√Ķes ajudam a reduzir a incerteza que temos sobre a precis√£o dessas mediadas. Por exemplo, um conjunto de leituras de sensores de esta√ß√Ķes clim√°ticas em uma mesma √°rea.

Por outro lado, a publica√ß√£o de novos dados tamb√©m pode diminuir o valor de dados existentes, j√° publicados. Aqui n√£o necessariamente ele est√° falando de valores econ√īmicos. Podem ser tamb√©m outros efeitos adversos ocasionados pela publica√ß√£o de novos dados.

  • Preju√≠zos que levem √† retra√ß√£o e diminui√ß√£o da confian√ßa. A publica√ß√£o de novos dados pode levar √† reidentifica√ß√£o de dados pessoais em dados j√° publicados anteriormente, por permitir novos cruzamentos e infer√™ncias. As consequ√™ncias dos danos da reidentifica√ß√£o ou infer√™ncias indesejadas podem levar √† retirada de dados j√° publicados, a diminui√ß√£o de seu escopo e aumentar a resist√™ncia de outras organiza√ß√Ķes em publicar dados semelhantes.
  • Redu√ß√£o da qualidade geral. Novos dados podem enriquecer, validar ou melhorar dados existentes. Mas tamb√©m pode ter o efeito oposto se for de baixa qualidade.
  • Cria√ß√£o de competi√ß√£o desnecess√°ria ou aumentar a fric√ß√£o. Conjuntos de dados relacionados ao mesmo objeto podem competir entre si. Ter diferentes n√≠veis de qualidade, confiabilidade, termos de licenciamento, etc. Essa competi√ß√£o n√£o √© necessariamente positiva, pois pode privar a comunidade dos efeitos de rede (‚Äúnetwork effects‚ÄĚ) da liga√ß√£o entre dados diferentes, uma vez que eles podem incompat√≠veis entre si. Ter diferentes vers√Ķes dos mesmos dados tamb√©m podem deixar em d√ļvida quem os pretende utilizar sobre qual √© a fonte mais confi√°vel.
  • Constru√ß√£o de funda√ß√Ķes ruins. Os dados muitas vezes s√£o usados para construir uma infraestrutura para um setor ou para encarar um desafio espec√≠fico. Se esses dados n√£o forem bem mantidos e n√£o tiverem os recursos necess√°rios depois de um tempo, a energia dispensada para construir as comunidades, ferramentas e conjuntos de dados sobre essa infraestrutura podem ser desperdi√ßados. Isso reduz o valor de outros conjuntos de dados existentes que poderiam ter sido utilizados em vez disso para construir uma funda√ß√£o melhor.

E voc√™, concorda com os argumentos levantados por Leigh Dodds? Consegue imaginar outras situa√ß√Ķes em que a publica√ß√£o de novos dados possa impactar, positiva ou negativamente, no valor dos dados que j√° est√£o publicados? Comente aqui.

Ol√°, parece uma discuss√£o interessante, mas n√£o entendi o que quis dizer de ‚Äúdois datasets‚ÄĚ ou ‚Äúnovos dados‚Ä̂Ķ E seguir os links do Leigh Dodds n√£o ajudou muito.

Poder√≠amos recorrer a modelos, teorias e vis√Ķes. Mas n√£o √© uma quest√£o t√£o filos√≥fica, √© s√≥ para alinhar a discuss√£o mesmo ‚ÄĒ aqui entre n√≥s e talvez de forma mais did√°tica, antes de entrar nos meandros do valor da publica√ß√£o de dados.

Vou tentar exemplificar, imaginando casos fictícios:

  1. Maria publica dados empíricos (dataset1) que utilizou para deduzir a aceleração da gravidade no Marco Zero de São Paulo, g_sampa, através de pêndulos.

  2. Diego publica os dados (dataset2) que levaram ao seu valor de g_sampa através de bolinhas de aço em queda livre.

  3. Isabel publica dados resultantes de simulação por computador, dataset3, que integra os dados de Joana com os de Diego, fornecendo tanto um g_sampa mais preciso, como um índice de confiabilidade.

  4. Roberto publica dados, dataset4 e dataset5, que são uma mera cópia dos dados de Maria e Diego, mas em arquivos CSV, mais abertos e organizados.

  5. A Marta refaz o experimento do pêndulo de Maria, muda pouca coisa, mas são dados diferentes, dataset6, além de representarem uma confirmação/reforço para o dataset1.

Imaginar tamb√©m que a sequ√™ncia acima √© a sequ√™ncia temporal em que foram publicados, que define ineditismo ou ‚Äúnovidade‚ÄĚ.


Enfim, comentários e perguntas sobre o significado…

Os datasets de Roberto s√£o ‚Äúnovos‚ÄĚ em que sentido?

… E se o Roberto errou na cópia, estaria propagando erro: ele queria ajudar mas acabou atrapalhando! No que isso enriquece?

Os datasets da Isabel s√£o ‚Äúnovos‚ÄĚ em que sentido?

… E se a Isabel errou na cópia, ou errou na simulação … Mas antes fez muito sucesso no Twitter, estaria propagando erro: neste cenário ela queria ajudar mas acabou atrapalhando!

Os dados de Diego s√£o ‚Äúnovos‚ÄĚ em que sentido?

Os dados de Marta aumentam a cobertura dos dados de Maria, é isso? E os dados de Diego e de Isabel, não aumentam?

‚Ķ Poderia enunciar outras perguntas e problemas, mas o objetivo principal foi criar um contexto, uma refer√™ncia um pouco mais ‚Äúm√£o na massa‚ÄĚ, apesar de imagin√°ria.


Nota. Resta ainda alinhar o jarg√£o, ‚Äúo que √© dataset ?‚ÄĚ. Aqui para n√≥s um caso concreto j√° responde. O dataset1 (da Maria) √© simples, uma lista de valores Ti de tempo cronometrado, ainda assim, a rigor, √© um pacote de informa√ß√Ķes que inclui o valor de L, o comprimento do p√™ndulo. Num p√™ndulo padronizado pode-se omitir L, mas a√≠ essa informa√ß√£o entra como metadado‚Ķ Em ambos os casos o ideal √© o dataset ser uma coisa melhor definida, como no FrictionlessData.

1 curtida

Peter, acho que os exemplos iniciais que você deu são exemplos em que o valor dos dados aumentaria. Já este seria um exemplo em que o valor diminuiria:


Dos dados que representam experimentos realizados em outro lugar ou tempo (Diego, Marta) pode-se dizer que aumentam a cobertura, segundo essa proposta do Dodds, uma vez que, a priori, parte-se da hipótese que a variável medida (aceleração da gravidade) poderia variar no tempo e no espaço.

Em geral, a ideia do texto n√£o √© se prender aos exemplos de situa√ß√Ķes dados pelo Dodds, e sim trazer uma reflex√£o de que a publica√ß√£o de dados √© capaz de alterar, para mais ou para menos, a percep√ß√£o de valor atribu√≠da a dados que j√° estavam dispon√≠veis.