Anonimização como forma de proteção de dados

O tema proteção de dados está em alta, principalmente com a proximidade da entrada em vigor da Lei Geral de Proteção de Dados Pessoais (LGPD), um dos assuntos polêmicos é a recomendação de anonimizar os dados sempre que possível, observada mais de uma vez no texto da lei. 

A  LGPD descreve anonimização como a  utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo;

Em linhas gerais, são modificações aplicadas nos dados para que ele deixe de identificar uma pessoa. 

Biondi (2019), esclarece que o processo de anonimizar um dado é composto por técnicas que buscam eliminar elementos identificadores de uma base de dados, e traz quatro delas como exemplo, vamos analisar brevemente cada uma delas:

  • Supressão: valores são substituídos por algum caractere especial num conjunto de dados, para dificultar a identificação. Por exemplo, CPF 123.456.789-00, se torna 123.45X.XXX-XX.
    Outra forma de supressão é excluir determinados valores do conjunto de dados, por exemplo: uma tabela que possui os campos: nome, data de nascimento, cep, sexo e produto, após a supressão apresenta apenas os campos sexo e produto.

Tabela original:

NomeData nascimentoCepSexoProduto
Ana08/04/198004186-030FemininoTelevisor
Pedro12/03/199206295-001MasculinoVideo-game

Tabela suprimida:

SexoProduto
FemininoTelevisor
MasculinoVideo-game
  • Generalização: consiste em substituir uma informação por outra mais genérica. Usando o exemplo anterior, no lugar do campo data de nascimento, é exibida uma faixa etária e a região substitui o cep.
Faixa etáriaRegiãoSexoProduto
Entre 31 e 40 anosSudesteFemininoTelevisor
Entre 21 e 30 anosNorteMasculinoVideo-game
  • Randomização: é uma técnica de mascaramento das informações por meio da adição de algum ruído ao dado, valores originais são substituídos por outros fictícios, contudo, sem afetar análises estatísticas, apenas impossibilitando a identificação de um indivíduo. Nossa tabela usada no primeiro exemplo fica desta maneira:
Data nascimentoCepSexoProduto
12/01/198006295-001FemininoTelevisor
14/06/199204186-030MasculinoVideo-game

  • Pseudoanonimização: a LGPD define pseudoanonimização como tratamento por meio do qual um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo, senão pelo uso de informação adicional mantida separadamente pelo controlador em ambiente controlado e seguro.
    A base de dados é dividida em duas partes, a primeira fica com informações mais genéricas e a segunda com os dados sensíveis.

Vamos acrescentar a coluna Id a nossa tabela de exemplo.

IdNomeData nascimentoCepSexoProduto
01Ana08/04/198004186-030FemininoTelevisor
02Pedro12/03/199206295-001MasculinoVideo-game

Tabela com dados pseudoanonimizados:

IdSexoProduto
01FemininoTelevisor
02MasculinoVideo-game

Tabela com dados sensíveis:

IdNomeData nascimentoCep
01Ana08/04/198004186-030
02Pedro12/03/199206295-001

Os procedimentos mencionados acima são importantes para garantir que não sejamos identificados por pessoas de caráter duvidoso, que poderiam se valer dessas informações para praticar crimes, invadir nossa privacidade e até deixar nossa segurança em risco .

Existem estudo que comprovam a possibilidade de reversão de técnicas de anonimização de dados, mas isso é assunto para um próximo post, o intuito aqui é conceituar o tema e discorrer sobre algumas das técnicas atuais, de modo a facilitar o entendimento e promover o debate saudável sobre o assunto.

Referências bibliográficas:

Bioni, Bruno Ricardo. Proteção de Dados Pessoais (p. 62). Forense. Edição do Kindle. 

(PDF) PRESERVAÇÃO DE PRIVACIDADE DE DADOS: FUNDAMENTOS, TÉCNICAS E APLICAÇÕES

Hebert de Oliveira Silva Uma Abordagem Baseada em Anonimização para Privacidade de Dados em Plataformas Analíticas

L13709

Anonimização, pseudonimização e criptografia: Perguntas frequentes, definições e o que diz a LGPD

Deixe um comentário

O seu endereço de e-mail não será publicado.