🕵️‍♀ Como fazer a anonimização ou a desidentificação de dados?

Retirar informações pessoais de um conjunto de dados e torná-lo apto à publicação é uma tarefa difícil. Alguns argumentam, até, que seria impossível. Assim como no cenário de segurança de sistemas a descoberta, exploração e correção de vulnerabilidades formam um jogo de gato e rato entre atacantes e defensores, as técnicas de anonimização (também chamada desidentificação) estão em constate batalha contra as técnicas de reidentificação, que visam cruzar diferentes fontes de dados, usar técnicas estatísticas e outros instrumentos para tentar descobrir fatos sobre pessoas individuais.

Na segurança de sistemas, quem defende precisa estar constantemente cobrindo todas as possíveis falhas, enquanto que, ao atacante, basta encontrar uma única vulnerabilidade para ter sucesso. Na batalha entre a anonimização e a reidentificação de dados, além disso, ainda há o fato de que, uma vez reidentificado o dado, o dano já está feito e não tem como ser contornado. Justamente por isso, há de se ter muito mais cuidado ao considerar a anonimização de dados para a publicação como dados abertos.

Seguem algumas referências importantes sobre o tema:

  • Apresentação do IBGE, no Comitê Gestor da INDA , em agosto de 2017, sobre a desidentificação de dados em suas pesquisas
  • Opinião 05/2014, do Grupo de Trabalho sobre proteção de dados da União Europeia, contendo recomendações para a anonimização de dados

A ideia com esta postagem é concentrar aqui outras referências. Se você conhece outros recursos úteis para a temática, não hesite em postar e editaremos o tópico para inclui-los.

3 curtidas

Olá @herrmann

Na Prefeitura de São Paulo, tal como no Governo Federal, publicamos de forma ativa os pedidos de acesso a informação via sistema e-SIC, bem como as respectivas respostas e anexos. Estes documentos estão disponíveis em:

A publicação dessas informações exige um trabalho pesado de verificação e tratamento de dados e informações pessoais visando sua proteção, que atualmente é realizado de forma manual.

De forma bem geral, o processo consiste em:

  • Verificar os arquivos, independentemente do formato, buscando identificar dados pessoais ou sensíveis, tal como definido pela LAI e LGPD*
  • Caso existam dados pessoais/sensíveis, esses são retirados do documento/arquivo, por meio de edição/eliminação dos dados (p.ex.: em arquivos Word, Excel, texto etc.) ou colocação de tarjas sobre os dados pessoais (arquivos PDF, imagens)
  • Os arquivos anonimizados são salvos em novas versões para publicação e mantemos em arquivo interno os arquivos originais não-anonimizados.

(*) Na prática, definir o que é um dado pessoal ou sensível que necessita ser protegido é muitas vezes bem mais difícil que as normas aparentam. Na dúvida, adotamos um “critério de cautela” e anonimizamos o dado, pois mantemos uma cópia do arquivo original, com os dados pessoais/sensíveis. Caso haja um questionamento futuro sobre a ocultação/eliminação de dados que deveriam ser públicos podemos discutir com mais tempo e propriedade e, se for o caso, decidir (ou acatar uma decisão) pela publicação de dados que inicialmente foram considerados como pessoais ou sensíveis e portanto protegidos.

Os pedidos de informação registrados sob os protocolos e-SIC nº 42832 e 42834 trazem explicações sobre este processo. Podem ser consultados aqui:

( ver arquivos “Resposta_pedido_42832" , “Resposta_pedido_42834" e “42832_RELATÓRIO_ANONIMIZACAO_ANEXOS_PEDIDOS_ESIC_20190813.PDF”)

Espero ter contribuído com exemplos práticos de como este desafio está sendo enfrentado e gostaria muito de conhecer e discutir outras experiências.

Saudações,
João.

3 curtidas

Excelente, João!

Tomo a liberdade de reproduzir aqui um trecho, referente a uma pergunta do pedido 42834, de especial relevância para essa discussão:

  1. Há alguma apresentação ou documento norteador ensinando a fazer a anonimização?

Conceitos e orientações básicas sobre a proteção de dados e informações pessoais no âmbito da Administração Municipal estão disponíveis no documento produzido pela CGM/COPI em 2016 “Proteção de Informações e Dados Pessoais”, disponível em https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/CGM_Protecao_de_Informacoes_e_Dados_Pessoais_atualizado.pdf.
Além disso, a Lei de Acesso à Informação prevê a proteção da informação sigilosa e da informação pessoal no inciso III, artigo 6° e há a mesma previsão no Decreto Municipal n° 53.623/2012 no inciso III, artigo 4°.

É o mais próximo a um manual sobre o tema que já consegui encontrar. Como vocês já possuem bastante experiência no assunto, quando tiverem algum documento ou orientação atualizada, peço a gentileza de compartilhar novamente.

1 curtida

O Open Data Institute tem muitos materiais de orientações quanto à anonimização de dados. Vale a pena conhecer:

com destaque especial para o guia

e o tutorial prático em Python:

A Microsoft disponibilizou um pacote Python, em software livre (licença MIT), para reconhecer informações pessoais em textos e imagens usando reconhecimento de entidades mencionadas (NER – named entity recognition), baseada na biblioteca Spacy.

O nome Presidio soa estranho em português, mas, segundo eles, vem do latim e quer dizer proteção. Mais informações no repositório do Github:

Achei interessante o fato do Ibama colocar entre as suas metas institucionais a publicação de dados abertos com mascaramento de dados pessoais.

Unidade de Avaliação Meta Proposta Índice da Meta Unidade de Medida Fórmula de Cálculo/Meio de Mensuração Resultado Alcançado Percentual Média Final
CGTI Implementar mascaramento de dados pessoais para o cumprimento da LGPD 50% Percentual Total de serviços com dados mascarados disponibilizados no portal de dados abertos / Total de serviços que devem ter dados mascarados disponibilizados no portal de dados abertos * 100 21 / 24 = 87,50% 100%

Os resultados estão na Portaria n.º 65, de 31 de agosto de 2022, publicada no Diário Oficial da União de 1/9/2022, seção 1, pág. 109.

Olhando a área do Ibama no portal dados.gov.br, tem muita coisa interessante, como áreas embargadas, equipamentos apreendidos e multas aplicadas, que usam o mascaramento. Esses dados muitas vezes têm geolocalização e atualização de área. O pessoal do Ibama está de parabéns!