Forget big data, small data is the real revolution

3 curtidas

Boa @nitai, desenterrou do baú de 2013 um aspecto que não podemos nos esquecer (!) em meio à pressão por resultados e modismos.

… Eu ainda concordo com o artigo, mas não consegui escapar do Big Data, hoje trabalho com bancos Hive e HBase (do ecossistema Apache Hadoop) na VIVO, onde é comum ver tabelas ocupando petabytes. No passado já trabalhei com o padrão Frictionless Data citado no artigo: continua sendo um padrão recomendado pela comunidade de dados abertos, por garantir o nosso rumo às 5 estrelas dos dados abertos e à acessibilidade.

O small data citado corresponde hoje aos chamados “conjuntos de dados padronizados” (datasets), e quem institui essa padronização não é uma super-autoridade, sou eu ou você com ajuda da comunidade, inclusive fóruns de discussão como este. O pessoal do Brasil.io fez um bom trabalho reunindo datasets, expondo numa bonita interface e garantindo que eles “conversem entre si” tanto quanto possível (ainda pendente usarem FrictionlessData que dá trabalho).

Alguns dos datasets do Brasil.io também mostram que o conceito de small evolui com o tamanho dos nossos discos (o preço hoje do Terabyte de disco SSD é ~10% do preço de 2013)… Não são Big Data mas são datasets grandes.

Vejamos um exemplo mais simples de small data enpacotado com padrão FrictionlessData, que qualquer leitor aqui do fórum está familiarizado: as siglas de Estado, abreviações de região, etc. e sua série histórica desde ~1960. Está em
    http://Datasets.OK.org.br/state-codes
O link para o visualizador de dapackage desse dataset mostra porque é importante interoperar através de padrões, e porque o custo de perder tempo descrevendo os dados (ou seja produzindo metadados) se justifica e muito!
PS: muitos dos antigos datasets são hoje gerados automaticamente pela Wikidata, por exemplo nesta consulta às regiões do Brasil

Hoje os padrões FrictionlessData podem ser compatibilizados com as boas práticas Big Data. Um Data Lake típico de Big Data tem milhares de tabelas, mas apenas 0.1% a 10% são Big (tabelas-fato), o restante são tabelas de dados auxiliares de relacionamentos (tabelas-referência), sem os quais não seria possível fazer conversões, gerar sumarizações estatísticas ou relatórios inteligíveis.

As equipes de Big Data do Brasil se descabelam para interpretar os dados, porque ninguém se dá ao trabalho de documentar através de metadados abertos (ainda é comum documentar com PDF!), assim como compor as dimensões de OLAP ou de modelos estrela, ou os simples SQL-Joins descritivos das sumarizações e relatórios, através de “small” datasets padronizados.


A comunidade de dados abertos tem muito a contribuir:

2 curtidas

@ppkrauss obrigado pelo texto. De fato o texto do Rufus nos faz lembrar de aspectos valiosos. Particularmente também não escapei do Big Data. Tenho estudado tecnologias relacionadas.

No fundo esses aspectos de small data reforçam a importância de padronização e interoperabilidade. A e-ping (que vc linkou no termo interoperabilidade :slightly_smiling_face:) teve papel importante. Acredito que a demanda crescente por Ciência de Dados esteja criando uma pressão para uma retomada da e-ping.

Suas propostas de contribuições pela comunidade de dados abertos são muito boas.

1 curtida

Geralmente quando topo com críticas no estilo de forget big data, o texto costuma fazer uma crítica em torno de vieses, qualidade dos dados, e era isso que eu esperava. No entanto, fui surpreendido! Interessante esse conceito de small data, @nitai! :smile:

Em tempos onde muitos acham que basta um “N grande” e tudo está resolvido, acho o link abaixo uma boa leitura, e complemento ao forget big data, ou ao menos be careful with big data :slight_smile:

2 curtidas

Bem interessante também esse artigo, @mribeirodantas! Demonstra que, para a capacidade de realizar inferências em relação a uma população, é muito mais importante a aleatoriedade de uma amostra do que o seu tamanho.

Já o artigo do Rufus Pollock enfatiza que, para a atribuição de valor aos dados, muito mais importante que o seu tamanho é o seu potencial de reutilização em diferentes contextos, em diferentes organizações para resolver uma diversidade de problemas. E que, muitas vezes, os dados que são mais úteis não são big data.

2 curtidas