Recentemente, Leigh Dodds, provocado pelo relatório sobre o valor dos dados divulgado pelo Bennett Institute of Public Policy da Universidade de Cambridge, publicou em seu blog um par de postagens sobre o efeito da publicação de novos dados sobre o valor dos dados existentes, já publicados.
- How can publishing more data increase the value of existing data?
- How can publishing more data decrease the value of existing data?
Segundo ele, o valor dos dados existentes pode ser aumentado pela publicação de novos dados nas seguintes situações:
- Comparação. Quando há dois ou mais datasets, é possível compará-los, encontrar diferenças, semelhanças, correlações.
- Enriquecimento. Novos dados podem enriquecer dados existentes ao acrescentar novas informações.
- Validação. Novos dados podem ajudar a identificar e corrigir erros em dados existentes.
- Ligação. Um novo conjunto de dados pode servir de elo entre diversos outros datasets, possibilitando novas análises. É como uma peça faltante em um quebra-cabeças.
- Armação. Um conjunto de dados pode nos ajudar a organizar outros dados ou a colecionar novos dados.
- Aumento da cobertura. Adicionar novos dados do mesmo tipo a uma coleção existente pode nos ajudar a obter um conjunto de dados maior, mais completo. Dados agregados a partir desses dados passam a ser mais representativos do mundo real. Com o aumento da cobertura temporal ou espacial, novos usos se tornam possíveis.
- Aumento da confiança. Se os novos dados medem algo que já registramos, a repetição das medições ajudam a reduzir a incerteza que temos sobre a precisão dessas mediadas. Por exemplo, um conjunto de leituras de sensores de estações climáticas em uma mesma área.
Por outro lado, a publicação de novos dados também pode diminuir o valor de dados existentes, já publicados. Aqui não necessariamente ele está falando de valores econômicos. Podem ser também outros efeitos adversos ocasionados pela publicação de novos dados.
- Prejuízos que levem à retração e diminuição da confiança. A publicação de novos dados pode levar à reidentificação de dados pessoais em dados já publicados anteriormente, por permitir novos cruzamentos e inferências. As consequências dos danos da reidentificação ou inferências indesejadas podem levar à retirada de dados já publicados, a diminuição de seu escopo e aumentar a resistência de outras organizações em publicar dados semelhantes.
- Redução da qualidade geral. Novos dados podem enriquecer, validar ou melhorar dados existentes. Mas também pode ter o efeito oposto se for de baixa qualidade.
- Criação de competição desnecessária ou aumentar a fricção. Conjuntos de dados relacionados ao mesmo objeto podem competir entre si. Ter diferentes níveis de qualidade, confiabilidade, termos de licenciamento, etc. Essa competição não é necessariamente positiva, pois pode privar a comunidade dos efeitos de rede (“network effects”) da ligação entre dados diferentes, uma vez que eles podem incompatíveis entre si. Ter diferentes versões dos mesmos dados também podem deixar em dúvida quem os pretende utilizar sobre qual é a fonte mais confiável.
- Construção de fundações ruins. Os dados muitas vezes são usados para construir uma infraestrutura para um setor ou para encarar um desafio específico. Se esses dados não forem bem mantidos e não tiverem os recursos necessários depois de um tempo, a energia dispensada para construir as comunidades, ferramentas e conjuntos de dados sobre essa infraestrutura podem ser desperdiçados. Isso reduz o valor de outros conjuntos de dados existentes que poderiam ter sido utilizados em vez disso para construir uma fundação melhor.
E você, concorda com os argumentos levantados por Leigh Dodds? Consegue imaginar outras situações em que a publicação de novos dados possa impactar, positiva ou negativamente, no valor dos dados que já estão publicados? Comente aqui.