O tema proteção de dados está em alta, principalmente com a proximidade da entrada em vigor da Lei Geral de Proteção de Dados Pessoais (LGPD), um dos assuntos polêmicos é a recomendação de anonimizar os dados sempre que possível, observada mais de uma vez no texto da lei.
A LGPD descreve anonimização como a utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo;
Em linhas gerais, são modificações aplicadas nos dados para que ele deixe de identificar uma pessoa.
Biondi (2019), esclarece que o processo de anonimizar um dado é composto por técnicas que buscam eliminar elementos identificadores de uma base de dados, e traz quatro delas como exemplo, vamos analisar brevemente cada uma delas:
- Supressão: valores são substituídos por algum caractere especial num conjunto de dados, para dificultar a identificação. Por exemplo, CPF 123.456.789-00, se torna 123.45X.XXX-XX.
Outra forma de supressão é excluir determinados valores do conjunto de dados, por exemplo: uma tabela que possui os campos: nome, data de nascimento, cep, sexo e produto, após a supressão apresenta apenas os campos sexo e produto.
Tabela original:
Nome | Data nascimento | Cep | Sexo | Produto |
Ana | 08/04/1980 | 04186-030 | Feminino | Televisor |
Pedro | 12/03/1992 | 06295-001 | Masculino | Video-game |
Tabela suprimida:
Sexo | Produto |
Feminino | Televisor |
Masculino | Video-game |
- Generalização: consiste em substituir uma informação por outra mais genérica. Usando o exemplo anterior, no lugar do campo data de nascimento, é exibida uma faixa etária e a região substitui o cep.
Faixa etária | Região | Sexo | Produto |
Entre 31 e 40 anos | Sudeste | Feminino | Televisor |
Entre 21 e 30 anos | Norte | Masculino | Video-game |
- Randomização: é uma técnica de mascaramento das informações por meio da adição de algum ruído ao dado, valores originais são substituídos por outros fictícios, contudo, sem afetar análises estatísticas, apenas impossibilitando a identificação de um indivíduo. Nossa tabela usada no primeiro exemplo fica desta maneira:
Data nascimento | Cep | Sexo | Produto |
12/01/1980 | 06295-001 | Feminino | Televisor |
14/06/1992 | 04186-030 | Masculino | Video-game |
- Pseudoanonimização: a LGPD define pseudoanonimização como tratamento por meio do qual um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo, senão pelo uso de informação adicional mantida separadamente pelo controlador em ambiente controlado e seguro.
A base de dados é dividida em duas partes, a primeira fica com informações mais genéricas e a segunda com os dados sensíveis.
Vamos acrescentar a coluna Id a nossa tabela de exemplo.
Id | Nome | Data nascimento | Cep | Sexo | Produto |
01 | Ana | 08/04/1980 | 04186-030 | Feminino | Televisor |
02 | Pedro | 12/03/1992 | 06295-001 | Masculino | Video-game |
Tabela com dados pseudoanonimizados:
Id | Sexo | Produto |
01 | Feminino | Televisor |
02 | Masculino | Video-game |
Tabela com dados sensíveis:
Id | Nome | Data nascimento | Cep |
01 | Ana | 08/04/1980 | 04186-030 |
02 | Pedro | 12/03/1992 | 06295-001 |
Os procedimentos mencionados acima são importantes para garantir que não sejamos identificados por pessoas de caráter duvidoso, que poderiam se valer dessas informações para praticar crimes, invadir nossa privacidade e até deixar nossa segurança em risco .
Existem estudo que comprovam a possibilidade de reversão de técnicas de anonimização de dados, mas isso é assunto para um próximo post, o intuito aqui é conceituar o tema e discorrer sobre algumas das técnicas atuais, de modo a facilitar o entendimento e promover o debate saudável sobre o assunto.
Referências bibliográficas:
Bioni, Bruno Ricardo. Proteção de Dados Pessoais (p. 62). Forense. Edição do Kindle.
(PDF) PRESERVAÇÃO DE PRIVACIDADE DE DADOS: FUNDAMENTOS, TÉCNICAS E APLICAÇÕES
Anonimização, pseudonimização e criptografia: Perguntas frequentes, definições e o que diz a LGPD
Seja o primeiro a comentar