Retirar informações pessoais de um conjunto de dados e torná-lo apto à publicação é uma tarefa difícil. Alguns argumentam, até, que seria impossível. Assim como no cenário de segurança de sistemas a descoberta, exploração e correção de vulnerabilidades formam um jogo de gato e rato entre atacantes e defensores, as técnicas de anonimização (também chamada desidentificação) estão em constate batalha contra as técnicas de reidentificação, que visam cruzar diferentes fontes de dados, usar técnicas estatísticas e outros instrumentos para tentar descobrir fatos sobre pessoas individuais.
Na segurança de sistemas, quem defende precisa estar constantemente cobrindo todas as possíveis falhas, enquanto que, ao atacante, basta encontrar uma única vulnerabilidade para ter sucesso. Na batalha entre a anonimização e a reidentificação de dados, além disso, ainda há o fato de que, uma vez reidentificado o dado, o dano já está feito e não tem como ser contornado. Justamente por isso, há de se ter muito mais cuidado ao considerar a anonimização de dados para a publicação como dados abertos.
Seguem algumas referências importantes sobre o tema:
Apresentação do IBGE, no Comitê Gestor da INDA , em agosto de 2017, sobre a desidentificação de dados em suas pesquisas
Opinião 05/2014, do Grupo de Trabalho sobre proteção de dados da União Europeia, contendo recomendações para a anonimização de dados
A ideia com esta postagem é concentrar aqui outras referências. Se você conhece outros recursos úteis para a temática, não hesite em postar e editaremos o tópico para inclui-los.
Na Prefeitura de São Paulo, tal como no Governo Federal, publicamos de forma ativa os pedidos de acesso a informação via sistema e-SIC, bem como as respectivas respostas e anexos. Estes documentos estão disponíveis em:
A publicação dessas informações exige um trabalho pesado de verificação e tratamento de dados e informações pessoais visando sua proteção, que atualmente é realizado de forma manual.
De forma bem geral, o processo consiste em:
Verificar os arquivos, independentemente do formato, buscando identificar dados pessoais ou sensíveis, tal como definido pela LAI e LGPD*
Caso existam dados pessoais/sensíveis, esses são retirados do documento/arquivo, por meio de edição/eliminação dos dados (p.ex.: em arquivos Word, Excel, texto etc.) ou colocação de tarjas sobre os dados pessoais (arquivos PDF, imagens)
Os arquivos anonimizados são salvos em novas versões para publicação e mantemos em arquivo interno os arquivos originais não-anonimizados.
(*) Na prática, definir o que é um dado pessoal ou sensível que necessita ser protegido é muitas vezes bem mais difícil que as normas aparentam. Na dúvida, adotamos um “critério de cautela” e anonimizamos o dado, pois mantemos uma cópia do arquivo original, com os dados pessoais/sensíveis. Caso haja um questionamento futuro sobre a ocultação/eliminação de dados que deveriam ser públicos podemos discutir com mais tempo e propriedade e, se for o caso, decidir (ou acatar uma decisão) pela publicação de dados que inicialmente foram considerados como pessoais ou sensíveis e portanto protegidos.
Os pedidos de informação registrados sob os protocolos e-SIC nº 42832 e 42834 trazem explicações sobre este processo. Podem ser consultados aqui:
( ver arquivos “Resposta_pedido_42832" , “Resposta_pedido_42834" e “42832_RELATÓRIO_ANONIMIZACAO_ANEXOS_PEDIDOS_ESIC_20190813.PDF”)
Espero ter contribuído com exemplos práticos de como este desafio está sendo enfrentado e gostaria muito de conhecer e discutir outras experiências.
Tomo a liberdade de reproduzir aqui um trecho, referente a uma pergunta do pedido 42834, de especial relevância para essa discussão:
Há alguma apresentação ou documento norteador ensinando a fazer a anonimização?
Conceitos e orientações básicas sobre a proteção de dados e informações pessoais no âmbito da Administração Municipal estão disponíveis no documento produzido pela CGM/COPI em 2016 “Proteção de Informações e Dados Pessoais”, disponível em https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/CGM_Protecao_de_Informacoes_e_Dados_Pessoais_atualizado.pdf.
Além disso, a Lei de Acesso à Informação prevê a proteção da informação sigilosa e da informação pessoal no inciso III, artigo 6° e há a mesma previsão no Decreto Municipal n° 53.623/2012 no inciso III, artigo 4°.
É o mais próximo a um manual sobre o tema que já consegui encontrar. Como vocês já possuem bastante experiência no assunto, quando tiverem algum documento ou orientação atualizada, peço a gentileza de compartilhar novamente.
A Microsoft disponibilizou um pacote Python, em software livre (licença MIT), para reconhecer informações pessoais em textos e imagens usando reconhecimento de entidades mencionadas (NER – named entity recognition), baseada na biblioteca Spacy.
O nome Presidio soa estranho em português, mas, segundo eles, vem do latim e quer dizer proteção. Mais informações no repositório do Github:
Achei interessante o fato do Ibama colocar entre as suas metas institucionais a publicação de dados abertos com mascaramento de dados pessoais.
Unidade de Avaliação
Meta Proposta
Índice da Meta
Unidade de Medida
Fórmula de Cálculo/Meio de Mensuração
Resultado Alcançado
Percentual
Média Final
…
…
…
…
…
…
…
…
CGTI
Implementar mascaramento de dados pessoais para o cumprimento da LGPD
50%
Percentual
Total de serviços com dados mascarados disponibilizados no portal de dados abertos / Total de serviços que devem ter dados mascarados disponibilizados no portal de dados abertos * 100
21 / 24 = 87,50%
100%
Os resultados estão na Portaria n.º 65, de 31 de agosto de 2022, publicada no Diário Oficial da União de 1/9/2022, seção 1, pág. 109.