Fonte: https://janete-ribeiro.medium.com/gest%C3%A3o-da-qualidade-dos-dados-7ec6d8546fa8
Muito se comenta sobre a importância dos dados na economia digital, os negócios “data-driven”, dados como novo petróleo dentre outros jargões.
Mas a qualidade dos dados é que faz a real diferença, pois, assim como o petróleo bruto não movimenta nenhum equipamento, os dados brutos ou “raw data” não são necessariamente uteis para tomada de decisão.
Mas como garantir a qualidade dos dados que temos? Como extrair produtos de dados?
É aí que está a mágica de transformar dados brutos “raw data” em dados úteis “right data”.
Para obtermos dados de qualidade temos que seguir alguns passos, assim como qualquer outro método de lapidação de metais preciosos ou refinamento do petróleo.
A associação internacional “Data Management Association — D.A.M.A.” definiu 6 dimensões para ajudar as empresas a explorarem o que são dados de qualidade:
1. A consistência significa que o dado tem os mesmos valores em fontes diversas desse dado, ou seja, não há incoerência sobre a informação dentro dos sistemas da empresa ou fontes externas de armazenamento.
2. A conformidade significa que o dado segue os padrões determinados do formato estipulado como esperado. Um exemplo: Se em uma coleta de dados oriundos de uma página web, esperamos receber dados em formato .txt composto por campos em “strings” e este chega em formato .pdf de imagens, este dado não estará em conformidade.
3. A disponibilidade é fator chave de uma informação! O dado que precisa estar disponível com velocidade quando necessária. Caso uma informação seja de difícil acesso, a qualidade do dado é prejudicada em termos de utilização.
4. A integridade significa o quão os dados são válidos! Se faz necessário saber que tipo de manipulação ou tratamento ele passou, se não houve fraude ou erros na geração do dado.
5. A precisão consiste no quão bem o dado representa a realidade do tema, por exemplo: Nr. de acessos de um site de e-commerce. Caso os sistemas não sejam atualizados em tempo real, os números não serão os mesmos no site e no sistema de gerenciamento, afetando a precisão de consulta e a consistência das informações.
6. A completude é o quão completo estão os dados para atender o propósito para o qual foram coletados. O dado pode estar incompleto, como por exemplo, com a ausência de endereço de e-mail, se o objetivo é enviar um contato via e-mail, o dado é incompleto para aquela ação.
Como podem ver, os princípios parecem óbvios, mas no cotidiano das empresas nem sempre encontramos dados com este nível de qualidade.
Por diversos motivos, dentre eles o passado de sistemas proprietários, o não planejamento de coleta de dados, o despreparo das equipes técnicas e de negócios em relação ao uso de dados na tomada de decisão, geram tais dificuldades no processo de encontrar dados de qualidade atualmente.
Para se garantir a qualidade dos dados precisamos criar um processo que garanta alguns componentes.
São eles:
Para tanto, existem ferramentas baseadas em algoritmos de aprendizagem de máquina (Machine Learning), para garantia da qualidade de dados. Também é possível desenvolver internamente soluções para fazer tais consistências criando algoritmos próprios. O que não pode é não fazer tais aferições.
Seja para desenvolvimento interno ou a aquisição de uma ferramenta de mercado, você deve considerar os seguintes itens:
· Buscar a padronização, validação, enriquecimento, deduplicação e consolidação de dados.
· APIs para validar dados residentes em ambiente de nuvem (Cloud Computing).
· Master Data Management (MDM), é um framework que aborda a integridade dos dados por meio de correspondência e modelagem, metadados e governança, além de limpeza e enriquecimento, automatizar a criação de perfil de dados, descoberta, correspondência e mesclagem em um único repositório central (data lake);
Aqui foram algumas dicas sobre garantir a qualidade dos dados, na próxima semana estarei participando do 15th Annual MIT CDOIQ Symposium, promovido pelo MIT onde certamente haverão muitas novidades sobre governança de dados, que compartilharei com vocês em breve.
Fontes:
Site — Data Management Association D.A.M.A. — https://www.dama.org/
Site — Datamation — 10 Data Quality tools 2021 — https://www.datamation.com/big-data/data-quality-tools/#vendor
Site 15th Annual MIT CDOIQ Symposium — https://mitcdoiq.org/
Be the first to comment