O que é tecido de dados?
Publicados: 2022-02-14Afirma-se que a malha de dados é um elemento obrigatório para todas as organizações centradas em dados. Nos últimos anos, essa terminologia tem sido bastante relevante no gerenciamento de dados corporativos e nas integrações de dados corporativos. De acordo com a empresa de análise Gartner, a malha de dados é considerada as 10 principais tendências de dados e análises para 2021. A Gartner também estima que até o ano de 2024, quase 25% de todos os fornecedores de gerenciamento de dados fornecerão uma solução abrangente de malha de dados. Este será um grande salto em relação à contribuição atual de 5%.
- Definição de malha de dados
- Necessidade de malha de dados
- A arquitetura
- Principais recursos
- A comparação
- Casos de uso do Data Fabric
- Vantagens do Data Fabric
O que é tecido de dados?
Para simplificar, a malha de dados é uma arquitetura simplificada, unificada e única que engloba um conjunto integrado de tecnologias e serviços. Esta coleção é criada para entregar dados integrados e enriquecidos usando a metodologia correta, para o cliente de dados certo e no momento certo; abordando tanto o trabalho operacional quanto o analítico.
A malha de dados compreende as principais tecnologias de gerenciamento de dados, como catálogo de dados, governança de dados, integração de dados, pipeline de dados e orquestração de dados.
Fonte: Gartner Inc. e/ou suas afiliadas
Por que você precisa de malha de dados?
Uma razão fundamental pela qual as organizações precisam de malha de dados é que ela atende a muitos direcionadores de alinhamento que são de natureza comercial, técnica e organizacional.
Impulsionadores de negócios
- Para direcionadores de negócios, a malha de dados ajuda a reduzir o tempo de acesso a insights e ajuda em um processo mais rápido de tomada de decisão informada. Isso é feito canalizando dados em data warehouses e data lakes rapidamente.
- A malha de dados também ajuda a fornecer uma visão de 360 graus em tempo real de todos os aspectos de uma entidade comercial, como clientes, fornecedores, pedidos, entrega, produto etc.
Direcionadores Organizacionais
- A malha de dados serve como uma linguagem comum entre engenheiros de dados e consumidores de dados, ajudando assim a melhorar a colaboração entre equipes de negócios e equipes de dados.
- Existem recursos de acesso a dados de autoatendimento que permitem que os consumidores obtenham os dados de que precisam e a qualquer momento.
Drivers de gerenciamento de dados
- O gerenciamento da preparação de dados ajuda os cientistas de dados e outros recursos de TI a evitar qualquer tipo de tarefa repetitiva em torno do enriquecimento, transformação e limpeza de dados.
- Por meio da malha de dados, é possível obter acesso a qualquer tipo de dados corporativos usando qualquer método. Isso inclui movimentação de dados em massa, virtualização de dados e até APIs.
- A malha de dados também simplifica e integra as ferramentas atuais de gerenciamento de dados usadas na organização e otimiza outras redundantes para melhorar a relação custo-benefício.
A arquitetura do Data Fabric
Uma arquitetura de malha de dados bem definida é modular por natureza e oferece suporte à implantação em larga escala que pode ser multinuvem, no local ou até mesmo uma implantação híbrida. Para uma arquitetura de malha de dados, as fontes de dados variam de muitos sistemas legados que funcionam em silos até os ambientes de nuvem mais recentes.
O diagrama a seguir dá uma ideia da arquitetura da malha de dados
Fonte: Gartner Inc. e/ou suas afiliadas
Os consumidores de malha de dados incluem cientistas e analistas de dados, analistas de marketing, analistas de vendas e recursos que trabalham em privacidade de dados junto com arquitetos de nuvem.
Principais recursos da malha de dados
Veja a seguir o conjunto de recursos-chave aos quais a malha de dados oferece suporte quando integrada em uma única plataforma unificada:
- Catálogo de dados
Categorizar, classificar e colocar ativos de dados em uma estrutura de inventário adequada, apresentando-os visualmente.
- Engenharia de dados
Desenvolver pipelines de dados confiáveis para fins analíticos e operacionais
- Gestão de dados
Para garantir a qualidade dos dados e também cumprir os regulamentos e protocolos sobre privacidade de dados, segurança de dados e escalabilidade
- Preparação de dados
Trata-se de definir o processo de fluxo de dados, que também inclui etapas envolvidas na limpeza, enriquecimento, transformação e validação de dados.
- Integração de dados e entrega de dados
Isso envolve extrair ou recuperar dados de qualquer fonte confiável e, em seguida, disponibilizá-los para o consumidor de dados para processamento adicional. Isso é feito por meio de APIs, ETL, etc.
Além dos recursos principais, conforme mencionado acima, também existem alguns recursos não essenciais, que a malha de dados traz para a mesa.
Estes são os seguintes:
- Escala, Volume e Desempenho de Dados
- Acessibilidade
- Distribuição
- Segurança
Comparação entre Data Fabric/Data Lake/Banco de Dados para Cargas de Trabalho Operacionais
Para ajudá-lo a entender o significado da malha de dados, vejamos uma comparação entre os prós e contras de várias fontes de dados
Várias fontes de dados | Prós | Contras |
---|---|---|
Data Lake, Data Warehouse | Suporta consultas de dados em muitos dados estruturados e não estruturados | Não é realmente ideal para consultas de dados de entrada única que causam respostas lentas. Não oferece suporte a dados ao vivo, portanto, as atualizações contínuas de dados não são confiáveis. |
Sem banco de dados SQL | Suporta escalabilidade linear por meio de arquitetura de armazenamento de dados distribuído | Não suporta SQL, por isso requer habilidades especializadas |
Tecido de dados | • Suporte completo a SQL • Suporta escalabilidade linear por meio de arquitetura de armazenamento de dados distribuído • Suporta alta simultaneidade com desempenho em tempo real • Suporta consultas complexas para entidades comerciais únicas • Suporta todos os tipos de metodologia de integração • Estrutura de governança de dados flexível e dinâmica | N / D |
Embora a malha de dados sirva como uma tecnologia superior para cargas de trabalho operacionais de alta escala, também é uma solução que atua como uma tecnologia recíproca para data lake e data warehouses. Para essa quantidade de cargas de trabalho de dados, uma malha de dados pode:
1. Pipeline dados novos e confiáveis para eles, para fins de análise offline.
2. Receba insights de negócios deles, para incorporar em casos de uso operacional em tempo real.
Casos de uso do Data Fabric
Nas operações corporativas, há vários casos de uso que exigem uma arquitetura de dados de alta escala e alta velocidade que seja capaz de suportar várias transações. Esses exemplos incluem:
Oferecendo uma visão de 360 graus do cliente
Oferecendo uma visão abrangente e única dos clientes por meio de sistemas de CRM, IVR ou um portal de autoatendimento do cliente.
Aderindo às leis de privacidade de dados
Adotando um fluxo de trabalho flexível e uma solução de automação de dados que atende à conformidade entre pessoas, sistemas e dados.
Dados de teste sob demanda
Ajudando na criação de um data warehouse de teste e compartilhando dados de teste anônimos para vários data centers, mantendo total integridade
Vantagens do Data Fabric
Há uma infinidade de vantagens da malha de dados sobre algumas das metodologias de gerenciamento de dados tradicionais/alternativas.
- Gerenciamento de dados aprimorado
- Serviços de dados expandidos
- Alto nível de consistência, disponibilidade e durabilidade
- Segurança extremamente rígida
- Alta performance
Pensamentos finais
Equipes que não desejam ter uma única solução de malha de dados para análise de dados e outra solução para inteligência operacional. Eles geralmente preferem ter uma única malha de dados para ambos.
Outros recursos úteis:
5 etapas para criar uma cultura orientada a dados | TechFunnel
12 dicas para construir alfabetização de dados em 2022 | Techfunnel
Data Hub – Tudo o que Você Precisa Saber | Techfunnel