Você precisa de Governança de Dados em um Datalake?

Há muito interesse nos datalakes principalmente com as possibilidades para análises, visualizações de dados, IA e aprendizado de máquina. Será que é realmente é necessário que haja governança de Dados em um datalake, por se tratar de um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em uma base escalável.

Ao contrário de um data warehouse, você pode armazenar seus dados sem estruturá-los primeiro, o que resultou em muitas organizações “despejando” muitos dados nos datalake de maneira descontrolada e impensada.

O resultado são os data swamp, ou pântanos de dados, que devido à falta de catálogos, metadados, linhagem e misturado com dados irrelevantes tornam-se verdadeiras tarefas tanto em recursos financeiros e humanos.

Isso não ocorre se houver um programa de governança em vigor no seu datalake, você e seus usuários poderão ter certeza de que ele contém dados limpos, que podem ser encontrados e utilizados adequadamente. Portanto, a resposta é sim! É necessário que haja para evitar o comprometimento da qualidade e confiança dos dados da organização.

Para embasar este ponto de vista, veja algum dos motivos pelos quais deve implementar a governança sobre os dados que são ingeridos no seu datalake:

Proprietários de dados são participantes do processo

Os proprietários dos dados devem aprovar se os seus dados devem ou podem ser carregados no datalake, por exemplo, no caso de dados confidenciais, quais devem ser anonimizados antes do carregamento?

Além disso, os usuários do datalake podem acionar o proprietário para acessos, dúvidas e finalidades de uso.

Definições de dados

Embora as definições de dados sejam desejáveis em todas as situações, elas são ainda mais necessárias para datalakes. Na ausência de definições, os usuários dos dados em bancos de dados mais estruturados podem usar o contexto desses dados para obter uma ideia do que podem ser os dados. Como um datalake não é estruturado por natureza, não existe esse contexto.

A falta de definições de dados significa que os usuários podem não conseguir encontrar ou entender os dados ou, alternativamente, usar os dados errados para sua análise. Portanto, o datalake poderia fornecer uma fonte pronta de dados, mas a falta de entendimento sobre isso significa que não pode ser usado de maneira rápida e fácil para responder às oportunidades e que o uso do datalake seria limitado a um pequeno número de usuários especializados.

Padrões de qualidade de dados

Os padrões de qualidade dos dados permitem monitorar e relatar o nível da qualidade dos dados mantidos no datalake. Embora você nem sempre precise de dados perfeitos ao analisar grandes volumes, os usuários precisam estar cientes da qualidade dos dados. Sem padrões (e a capacidade de monitorá-los), será impossível para os usuários mensurar se os dados são bons o suficiente para sua análise.

Limpeza de dados

Embora há casos em que a limpeza automatizada de dados no datalake é adequada, porém, deve ser realizada em acordo com os Proprietários e Consumidores de Dados para garantir que todas essas ações executadas estejam em conformidade com a definição e os padrões e que não faça com que os dados sejam inutilizáveis para determinados fins de análise – por exemplo a falta de data de nascimento poderia distorcer uma análise que envolvia observar as idades dos clientes.

Resolução de problemas de qualidade de dados

Recomenda-se que os problemas de qualidade de dados identificados no datalake devem ser gerenciados em parceria com os proprietários de dados de forma ágil para atender os consumidores de dados.

Linhagem de Dados

Ter fluxos de dados documentados é sempre valioso, mas para atender a certos requisitos regulatórios (incluindo o GDPR, LGPD entre outras), as organizações precisam provar que sabem onde estão os dados e como eles fluem pela empresa.

Um dos principais resultados da governança de dados são os diagramas de linhagem de dados. Dados críticos ou sensíveis que estão sendo ingeridos no datalake devem ser documentados nos diagramas de fluxo de dados, auxiliando na compreensão dos consumidores de dados, destacando suas origens. Essa documentação também ajuda a impedir que dados duplicados sejam carregados no datalake futuramente.

Se deseja que um datalake suporte decisões de negócios, é necessário governar seus dados. Embora possa não precisar ser tão granular quanto as definições e a documentação que você colocaria para um data warehouse, é necessário garantir a saúde do seu datalake para também evitar gastos desnecessários para recuperá-lo.

A ingestão de dados em datalake sem primeiro entendê-los, é apenas um dos muitos erros de governança de dados que geralmente são cometidos.

*Traduzido de Do you need Data Governance over a Datalake? de autoria de Nicola Askham.

Agradecimentos: revisão de Juciana Rodrigues