Como fazer a anonimização ou a desidentificação de dados?

Retirar informações pessoais de um conjunto de dados e torná-lo apto à publicação é uma tarefa difícil. Alguns argumentam, até, que seria impossível. Assim como no cenário de segurança de sistemas a descoberta, exploração e correção de vulnerabilidades formam um jogo de gato e rato entre atacantes e defensores, as técnicas de anonimização (também chamada desidentificação) estão em constate batalha contra as técnicas de reidentificação, que visam cruzar diferentes fontes de dados, usar técnicas estatísticas e outros instrumentos para tentar descobrir fatos sobre pessoas individuais.

Na segurança de sistemas, quem defende precisa estar constantemente cobrindo todas as possíveis falhas, enquanto que, ao atacante, basta encontrar uma única vulnerabilidade para ter sucesso. Na batalha entre a anonimização e a reidentificação de dados, além disso, ainda há o fato de que, uma vez reidentificado o dado, o dano já está feito e não tem como ser contornado. Justamente por isso, há de se ter muito mais cuidado ao considerar a anonimização de dados para a publicação como dados abertos.

Seguem algumas referências importantes sobre o tema:

  • Apresentação do IBGE, no Comitê Gestor da INDA , em agosto de 2017, sobre a desidentificação de dados em suas pesquisas
  • Opinião 05/2014, do Grupo de Trabalho sobre proteção de dados da União Europeia, contendo recomendações para a anonimização de dados

A ideia com esta postagem é concentrar aqui outras referências. Se você conhece outros recursos úteis para a temática, não hesite em postar e editaremos o tópico para inclui-los.

3 Curtidas

Olá @herrmann

Na Prefeitura de São Paulo, tal como no Governo Federal, publicamos de forma ativa os pedidos de acesso a informação via sistema e-SIC, bem como as respectivas respostas e anexos. Estes documentos estão disponíveis em:

A publicação dessas informações exige um trabalho pesado de verificação e tratamento de dados e informações pessoais visando sua proteção, que atualmente é realizado de forma manual.

De forma bem geral, o processo consiste em:

  • Verificar os arquivos, independentemente do formato, buscando identificar dados pessoais ou sensíveis, tal como definido pela LAI e LGPD*
  • Caso existam dados pessoais/sensíveis, esses são retirados do documento/arquivo, por meio de edição/eliminação dos dados (p.ex.: em arquivos Word, Excel, texto etc.) ou colocação de tarjas sobre os dados pessoais (arquivos PDF, imagens)
  • Os arquivos anonimizados são salvos em novas versões para publicação e mantemos em arquivo interno os arquivos originais não-anonimizados.

(*) Na prática, definir o que é um dado pessoal ou sensível que necessita ser protegido é muitas vezes bem mais difícil que as normas aparentam. Na dúvida, adotamos um “critério de cautela” e anonimizamos o dado, pois mantemos uma cópia do arquivo original, com os dados pessoais/sensíveis. Caso haja um questionamento futuro sobre a ocultação/eliminação de dados que deveriam ser públicos podemos discutir com mais tempo e propriedade e, se for o caso, decidir (ou acatar uma decisão) pela publicação de dados que inicialmente foram considerados como pessoais ou sensíveis e portanto protegidos.

Os pedidos de informação registrados sob os protocolos e-SIC nº 42832 e 42834 trazem explicações sobre este processo. Podem ser consultados aqui:

( ver arquivos “Resposta_pedido_42832" , “Resposta_pedido_42834" e “42832_RELATÓRIO_ANONIMIZACAO_ANEXOS_PEDIDOS_ESIC_20190813.PDF”)

Espero ter contribuído com exemplos práticos de como este desafio está sendo enfrentado e gostaria muito de conhecer e discutir outras experiências.

Saudações,
João.

3 Curtidas

Excelente, João!

Tomo a liberdade de reproduzir aqui um trecho, referente a uma pergunta do pedido 42834, de especial relevância para essa discussão:

  1. Há alguma apresentação ou documento norteador ensinando a fazer a anonimização?

Conceitos e orientações básicas sobre a proteção de dados e informações pessoais no âmbito da Administração Municipal estão disponíveis no documento produzido pela CGM/COPI em 2016 “Proteção de Informações e Dados Pessoais”, disponível em https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/CGM_Protecao_de_Informacoes_e_Dados_Pessoais_atualizado.pdf.
Além disso, a Lei de Acesso à Informação prevê a proteção da informação sigilosa e da informação pessoal no inciso III, artigo 6° e há a mesma previsão no Decreto Municipal n° 53.623/2012 no inciso III, artigo 4°.

É o mais próximo a um manual sobre o tema que já consegui encontrar. Como vocês já possuem bastante experiência no assunto, quando tiverem algum documento ou orientação atualizada, peço a gentileza de compartilhar novamente.

1 Curtida