ūüēĶÔłŹ‚Äć‚ôÄ Como fazer a anonimiza√ß√£o ou a desidentifica√ß√£o de dados?

Retirar informa√ß√Ķes pessoais de um conjunto de dados e torn√°-lo apto √† publica√ß√£o √© uma tarefa dif√≠cil. Alguns argumentam, at√©, que seria imposs√≠vel. Assim como no cen√°rio de seguran√ßa de sistemas a descoberta, explora√ß√£o e corre√ß√£o de vulnerabilidades formam um jogo de gato e rato entre atacantes e defensores, as t√©cnicas de anonimiza√ß√£o (tamb√©m chamada desidentifica√ß√£o) est√£o em constate batalha contra as t√©cnicas de reidentifica√ß√£o, que visam cruzar diferentes fontes de dados, usar t√©cnicas estat√≠sticas e outros instrumentos para tentar descobrir fatos sobre pessoas individuais.

Na seguran√ßa de sistemas, quem defende precisa estar constantemente cobrindo todas as poss√≠veis falhas, enquanto que, ao atacante, basta encontrar uma √ļnica vulnerabilidade para ter sucesso. Na batalha entre a anonimiza√ß√£o e a reidentifica√ß√£o de dados, al√©m disso, ainda h√° o fato de que, uma vez reidentificado o dado, o dano j√° est√° feito e n√£o tem como ser contornado. Justamente por isso, h√° de se ter muito mais cuidado ao considerar a anonimiza√ß√£o de dados para a publica√ß√£o como dados abertos.

Seguem algumas referências importantes sobre o tema:

  • Apresenta√ß√£o do IBGE, no Comit√™ Gestor da INDA , em agosto de 2017, sobre a desidentifica√ß√£o de dados em suas pesquisas
  • Opini√£o 05/2014, do Grupo de Trabalho sobre prote√ß√£o de dados da Uni√£o Europeia, contendo recomenda√ß√Ķes para a anonimiza√ß√£o de dados

A ideia com esta postagem √© concentrar aqui outras refer√™ncias. Se voc√™ conhece outros recursos √ļteis para a tem√°tica, n√£o hesite em postar e editaremos o t√≥pico para inclui-los.

3 curtidas

Ol√° @herrmann

Na Prefeitura de São Paulo, tal como no Governo Federal, publicamos de forma ativa os pedidos de acesso a informação via sistema e-SIC, bem como as respectivas respostas e anexos. Estes documentos estão disponíveis em:

A publica√ß√£o dessas informa√ß√Ķes exige um trabalho pesado de verifica√ß√£o e tratamento de dados e informa√ß√Ķes pessoais visando sua prote√ß√£o, que atualmente √© realizado de forma manual.

De forma bem geral, o processo consiste em:

  • Verificar os arquivos, independentemente do formato, buscando identificar dados pessoais ou sens√≠veis, tal como definido pela LAI e LGPD*
  • Caso existam dados pessoais/sens√≠veis, esses s√£o retirados do documento/arquivo, por meio de edi√ß√£o/elimina√ß√£o dos dados (p.ex.: em arquivos Word, Excel, texto etc.) ou coloca√ß√£o de tarjas sobre os dados pessoais (arquivos PDF, imagens)
  • Os arquivos anonimizados s√£o salvos em novas vers√Ķes para publica√ß√£o e mantemos em arquivo interno os arquivos originais n√£o-anonimizados.

(*) Na pr√°tica, definir o que √© um dado pessoal ou sens√≠vel que necessita ser protegido √© muitas vezes bem mais dif√≠cil que as normas aparentam. Na d√ļvida, adotamos um ‚Äúcrit√©rio de cautela‚ÄĚ e anonimizamos o dado, pois mantemos uma c√≥pia do arquivo original, com os dados pessoais/sens√≠veis. Caso haja um questionamento futuro sobre a oculta√ß√£o/elimina√ß√£o de dados que deveriam ser p√ļblicos podemos discutir com mais tempo e propriedade e, se for o caso, decidir (ou acatar uma decis√£o) pela publica√ß√£o de dados que inicialmente foram considerados como pessoais ou sens√≠veis e portanto protegidos.

Os pedidos de informa√ß√£o registrados sob os protocolos e-SIC n¬ļ 42832 e 42834 trazem explica√ß√Ķes sobre este processo. Podem ser consultados aqui:

( ver arquivos ‚ÄúResposta_pedido_42832" , ‚ÄúResposta_pedido_42834" e ‚Äú42832_RELAT√ďRIO_ANONIMIZACAO_ANEXOS_PEDIDOS_ESIC_20190813.PDF‚ÄĚ)

Espero ter contribuído com exemplos práticos de como este desafio está sendo enfrentado e gostaria muito de conhecer e discutir outras experiências.

Sauda√ß√Ķes,
Jo√£o.

3 curtidas

Excelente, Jo√£o!

Tomo a liberdade de reproduzir aqui um trecho, referente a uma pergunta do pedido 42834, de especial relev√Ęncia para essa discuss√£o:

  1. Há alguma apresentação ou documento norteador ensinando a fazer a anonimização?

Conceitos e orienta√ß√Ķes b√°sicas sobre a prote√ß√£o de dados e informa√ß√Ķes pessoais no √Ęmbito da Administra√ß√£o Municipal est√£o dispon√≠veis no documento produzido pela CGM/COPI em 2016 ‚ÄúProte√ß√£o de Informa√ß√Ķes e Dados Pessoais‚ÄĚ, dispon√≠vel em https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/CGM_Protecao_de_Informacoes_e_Dados_Pessoais_atualizado.pdf.
Al√©m disso, a Lei de Acesso √† Informa√ß√£o prev√™ a prote√ß√£o da informa√ß√£o sigilosa e da informa√ß√£o pessoal no inciso III, artigo 6¬į e h√° a mesma previs√£o no Decreto Municipal n¬į 53.623/2012 no inciso III, artigo 4¬į.

√Č o mais pr√≥ximo a um manual sobre o tema que j√° consegui encontrar. Como voc√™s j√° possuem bastante experi√™ncia no assunto, quando tiverem algum documento ou orienta√ß√£o atualizada, pe√ßo a gentileza de compartilhar novamente.

1 curtida

O Open Data Institute tem muitos materiais de orienta√ß√Ķes quanto √† anonimiza√ß√£o de dados. Vale a pena conhecer:

com destaque especial para o guia

e o tutorial pr√°tico em Python: