Uma listagem com endereços de rua (sch:streetAddress
) não tem lá muito valor de mercado. Ou seja, um dataset cuja semântica foi bem definida nesta discussão, não alcançaria bom preço se tentássemos vender.
Já uma listagem contendo não só <rua,número,cidade,CEP>
mas também a localização geográfica, algo como <geoURI,rua,número>
, isso sim, tem grande valor (!). A GeoURI é padrão Internet para se expressar Latitude e Longitude de um ponto, de modo que o eventual CEP e a cidade tornam-se redundantes para o dataset com GeoURI.
A questão que se coloca é se o dataset de endereços e localizações é um tipo de obra criativa passível de direito autoral, e portanto de licença não-CC0, ou se é um “dataset científico” pois podemos supor:
-
Quem batizou a rua com seu nome (e seu “marco zero” para metragem) foi a Câmara Municipal, e o fez com CC0 ao publicar como Lei.
-
Quem batizou a casa com sua numeração predial foi a “fita métrica”, pois respeita-se uma norma (federal ou municipal) de atribuição do número.
… E qualquer um tem direito de se postar na calçada e testemunhar o que vê (a plaqueta com o número), e/ou medir novamente. Enfim, parece CC0. -
Quem determinou a posição (GeoURI) não foi um artista, mas um aparelho GPS ou um click no mapa digital.
Enfim, passível de ser CC0 se um autor assim ofertar a sua medida.
Nessa visão estritamente racional, apenas o último item, sobre atribuir GeoURI, é que pode ser discutido, pode eventualmente justificar uma licença diferente de CC0… Mas aí entra a noção de cientista medindo um fenômeno da Natureza. Dados científicos podem ser escondidos, mas uma vez publicados não se pode proibir a sua citação e reutilização (seria no pior caso licença CC-BY).
Vou tentar contextualizar tudo isso um pouco melhor.
Enrosco entre público e privado
Grandes empresas como Google e Here cobram pela consulta (não é nem sequer pelos dados) a esse tipo de dado, pois através dele realizam o serviço que ficou conhecido como geocodificação: a Google por exemplo cobra ~US$5 por milhar de geocodificações.
Os dados do OpenStreetMap (OSM) são grátis, assim como o serviço de geocodificação OSM.
A nossa empresa de Correios, apesar de ser empresa pública, não publica os seus dados nem presta o serviço de geocodificação para qualquer um, mas cobra por sua base de dados de CEPs e supostamente lucra por manter escondidos, “longe da concorrência”, os seus dados de geocodificação… Lembrando que as concorrentes são majoritariamente estrangeiras e o prejuízo de ter dados ruins é só dos brasileiros.
Vejamos um exemplo onde esses dados são públicos e distribuídos sob licença CC0: na Wikidata podemos listar por SparQL o endereço do tipo <geoURI,rua,número>
(ilustração abaixo).
Ineditismo vs escala
Pode-se eventualmente alegar ineditismo da publicação do dado, ou seja a GeoURI associada ao endereço: o primeiro a fazer a medida de posição daquele endereço “ganha o prêmio Nobel”, e portanto solicita licença CC-BY ou mais restrita… Meio estranho, mas supondo-se válido, há como contornar. Temos dois princípios:
-
Em escalas menores (menor precisão) o dado deixa de trazer informação. Se a incerteza do ponto indicado pela GeoURI é da ordem de 1 kilômetro ou maior, podemos dizer
“Caraca, mas é óbvio e todo mundo já sabia que o endereço estava dentro desse quadradão!” -
A posição um endereço não requer precisão geográfica maior do que ~5 metros em espaço urbano ou ~15 metros em meio rural, de modo que diferentes GeoURIs, mesmo que precisas, mas caindo no mesmo “quadrado de definição do endereço”, poderão ser consideradas “posições de endereço” idênticas.
Com base nestes princípios poderíamos até lançar um novo padrão para os datasets de endereços, algo usando por exemplo Geohash de 7 dígitos para o meio rual e de 8 dígitos para o meio urbano. Um dataset na forma como <geohash,rua,número>
. Assim todas as medições, de diferentes pessoas usando GPS, diferentes clicks em mapa digital, em foto a área, etc. todas levariam ao mesmo endereço com mesmo Geohash. Dados idênticos requerem licenças idênticas, portanto podemos optar pela mais aberta.
PS: a proposta de padronização de fato existe, e não é restrita a Geohash.
Debate jurídico
Infelizmente, já vimos muito disso nos jornais e transmissões ao-vivo na TV: o Sistema Judiciário Brasileiro não é lá muito de respeitar a lógica, o bom-senso ou a Ciência… Conseguem validar distorções, desprezar dados quantitativos, etc.
Precisamos aprender a nos defender dos oportunismos e distorções, assim como aceitar, por mais inconsistentes, as leis vigentes: se algo é no momento “contra a Lei”, devemos tomar conhecimento do risco de ter um ato de publicação de dados interpretado como infração.