Qualidade e confiabilidade de dados para a nuvem – Azure, AWS e GCP
Publicados: 2022-07-01O santo graal da “confiança nos dados” dos dados à jornada de insights das empresas não é totalmente novo. Como as cargas de trabalho de BI e analíticas são separadas dos data warehouses, o abismo aumentou.
Há uma lacuna ainda maior entre o que os negócios precisam, as operações de negócios suportadas pelo cenário de aplicativos de TI e a confiabilidade dos dados acumulados nos data warehouses para as equipes de negócios.
Conceitos e ferramentas surgiram para resolver a lacuna na forma de:
- Recorde de ouro para todas as entidades empresariais de interesse.
- Com base nisso, estava o gerenciamento de dados mestre – padronizando o glossário sobre como os dados são entendidos, organizados e governados, com suporte de fornecedores como IBM, Informatica e Talend.
- Ela tentou domar o caos pela padronização inventando glossários de negócios e toneladas de ferramentas de ETL para apoiar as regras de negócios e ajudar as empresas a entender os dados.
Nesse caos, soluções e ferramentas de qualidade de dados foram enterradas profundamente em MDM e iniciativas de governança de dados. Ainda assim, existiam dois desafios – o primeiro era olhar para o passado e perguntar se os dados eram confiáveis.
Em segundo lugar, a 'qualidade' foi medida em relação ao registro dourado e aos dados mestres – padronização, que estava em constante evolução.
Confiabilidade de dados na nuvem – Por que e o que mudou?
Embora o hype de big data tenha começado com o Hadoop, as preocupações com volume, velocidade e veracidade foram abordadas, isso permaneceu como uma jogada empresarial.
A verdadeira inovação começou com sistemas MPP como o Redshift on AWS construído na nuvem nativamente, o que garantiu um desempenho superior para lidar com grandes conjuntos de dados com boa economia e uma interface amigável ao SQL.
Isso, por sua vez, estimulou um conjunto de ferramentas de ingestão de dados, como o Fivetran, que tornou mais fácil trazer dados para a nuvem.
Evolução da infraestrutura de dados e ecossistema de dados moderno na nuvem
Hoje, os dados estão sendo armazenados em data lakes em sistemas de arquivos em nuvem e data warehouses em nuvem, e vemos isso refletido no crescimento de fornecedores como Databricks e Snowflake.
O sonho de ser orientado por dados parecia muito mais próximo do que antes.
As equipes de negócios estavam ansiosas para analisar e transformar os dados de acordo com suas necessidades, e o ecossistema de ferramentas de BI evoluiu para criar a visão de negócios dos dados.
A faceta que mudou abaixo e ao longo dessa evolução é que os dados foram movidos de um ambiente estritamente controlado e governado para o oeste selvagem, à medida que várias equipes estão transformando e manipulando dados nos armazéns em nuvem.
Evolução de equipes de dados e equipes de negócios dependentes de engenharia de dados
Não é apenas o volume e o crescimento dos dados. As equipes famintas por dados (consumidores de dados) também explodiram na forma de equipes de BI, equipes analíticas e equipes de ciência de dados.
De fato, nas organizações nativas digitais (que foram construídas puramente na nuvem), até mesmo as equipes de negócios são equipes de dados. Por exemplo, um profissional de marketing deseja informações em tempo real sobre o tráfego do produto para otimizar as campanhas.
Atender essas equipes especializadas e descentralizadas com seus requisitos e expectativas não é uma tarefa fácil.
O ecossistema de dados respondeu com uma jogada inteligente, marcando o início da engenharia de dados e pipelines como uma unidade básica para empacotar as transformações especializadas, junções, agregações etc.
A realidade é que as equipes de dados estão constantemente lutando contra pipelines quebrados, alterando esquemas e formatos, que afetam todos os consumidores de dados, como painéis de BI danificados e previsões de lixo de modelos de ML.
Isso exige um novo pensamento em torno da criação de confiança nos dados, enquanto as métricas e abordagens de qualidade de dados anteriores são insuficientes.
Precisamos de métricas de confiabilidade de dados para monitorar e observar as mudanças nos dados em todas as formas (por exemplo, distribuições) e formas (mudanças de esquema, mudanças de formato) e aquelas que atendem às necessidades de engenheiros/analistas de BI e cientistas de dados.
Principais fatores que auxiliam a adoção da confiabilidade de dados entre empresas menores na nuvem
À medida que as empresas avançam para ferramentas de autoatendimento para inteligência de negócios (BI), análise de dados, painéis quebrados e modelos de aprendizado de máquina flutuantes podem ser dolorosos para empresas de todos os tamanhos.
Na verdade, o problema é acentuado para empresas com equipes de dados menores, pois elas gastam muito tempo lutando contra problemas de confiabilidade de dados, que de outra forma poderiam ser utilizados para liberar o valor dos dados.
Isso também exige uma maneira mais econômica que forneça eficiências de engenharia com base na arquitetura nativa da nuvem, computação e armazenamento sob demanda otimizados e dimensionáveis para que o monitoramento da confiabilidade dos dados seja entregue.
Qualidade de dados sem código para o resgate de equipes de negócios
Embora tenha sido alcançado um progresso significativo na aproximação dos dados às equipes de negócios, ainda há uma lacuna não resolvida no ecossistema de dados moderno.
As ferramentas atuais trazem a capacidade, elas também expõem a complexidade subjacente da infraestrutura de dados diretamente às equipes de negócios.
A maioria das empresas acha difícil começar a usar a nuvem porque não há muitas ferramentas de baixo código que facilitem o trabalho com dados.
Essas ferramentas costumam ter uma boa abstração da complexidade dos dados, mas nem sempre possuem uma interface de usuário alinhada aos objetivos e propósitos específicos dos usuários.
Essa área está ganhando força e estamos vendo novos grupos trazendo o no-code/low code na área de confiabilidade de dados.
Novas ferramentas para monitorar efetivamente os dados Infra, pipelines de dados e qualidade de dados + confiabilidade
Um amplo espectro de ferramentas está reimaginando o problema de monitorar os ecossistemas de dados modernos na nuvem.
As ferramentas do tipo Data Dog e New Relic monitoram a infraestrutura de dados na nuvem. Outras ferramentas, como Unravel, monitoram pilhas de dados na nuvem.
Também estão surgindo ferramentas para monitorar pipelines de dados na nuvem. E, finalmente, o Qualdo-DRX é uma ferramenta líder para monitorar a qualidade e a confiabilidade dos dados, disponível exclusivamente e reimaginado para todas as nuvens públicas.
Tem alguma opinião sobre isso? Deixe-nos saber abaixo nos comentários ou leve a discussão para o nosso Twitter ou Facebook.
Recomendações dos editores:
- Os engenheiros de dados podem dar vida às expectativas do consumidor
- Como a metodologia Agile se aplica a data warehouses?
- Ppts de análise de big data para dominar a técnica de análise avançada
- 4 coisas para saber sobre soluções corporativas habilitadas para nuvem