Data Fabric 与 Data Mesh:区别
已发表: 2022-03-14在为组织的当前和未来需求开发最佳数据架构的过程中,企业可以选择许多选项。 由于软件的软件结构的打包,这些选项可供组织选择。 企业可能会发现很难选择正确的选项,这就是为什么最近出现了来自 maw 的模式,允许组织在数据管理之旅中帮助他们,包括数据结构和数据网格。
首先,从概念的角度来看,数据结构和数据库都反映了相似性。 网格通常由织物制成,可以根据需要赋予不同的形状。 这允许 IT 部门将这些网格放置在其他系统之上,这些系统不断地处于数据处理过程中。
无论这两种方法看起来多么相似,都有一些明显的差异,只有当我们进一步研究这两种方法时才会注意到这一点。
什么是数据结构
数据结构的第一个定义出现在 200 年代中期,Forrester 的分析师 Noel Yuhanna 是第一个这样做的人。 从概念的角度来看,Data Fabric 是一种基于元数据的连接各种数据工具集的方式。 目标是解决一些大数据项目中的主要痛点,不仅以一种有凝聚力的方式,而且以自助服务模式运行。 Data Fabric 解决方案提供了各种功能,例如数据访问、发现、转换、集成、治理、沿袭和安全性。
数据结构的概念已经形成了显着的步伐。 这有助于简化在不断增长的异构环境中访问和管理数据的过程。 异构环境包括事务和操作数据存储、数据湖、数据仓库和湖屋。 我们看到越来越多的组织正在开发数据孤岛,并且由于云计算,与数据多样化有关的问题越来越大。
将单个数据结构放置在数据存储库之上,企业可以以统一管理的形式将其打包到不同的数据源,包括下游数据消费者,如数据科学家、数据工程师和数据分析师。 但需要注意的是,数据管理是统一的,而不是实际存储。 实际存储仍保留在分布式模型中。 有许多供应商(例如 Informatica 和 Talend)提供具有上述功能的数据结构。
什么是数据网格
虽然数据网格确实解决了数据结构所做的大部分问题,例如在异构环境中管理数据的挑战。 然而,处理和解决这个问题的方法在数据网格方法中是不同的。 虽然数据结构在包含分布式数据的数据存储之上创建了单层虚拟管理,但数据网格方法更多的是关于一组分布式团队,尽管有一些治理协议,但他们将根据要求管理数据。
数据网格的概念是由 Zhamak Dehgani 定义的。 Zhamak 是 Thoughtworks North America 的技术孵化主管。 指导数据网格方法解决数据湖和数据仓库之间不兼容问题的基本原则。 第一代数据仓库旨在存储海量结构化数据,主要供数据分析师使用。
然而,第二代数据湖用于存储大量非结构化数据,主要用于构建预测机器学习模型。 在该定义中,Zhamak 解释了第三代数据仓库(称为 Kappa),这完全是关于采用云服务的实时数据流。 但是,从使用的角度来看,这并不能解决第一代和第二代系统之间的差距。
在保证数据同步的过程中,很多企业都开发和维护了一个详尽的ETL数据管道。 因此,这就需要非常专业的数据工程师,他们有能力维护此类系统的工作。
Zhamak 提出的一个关键点是围绕工程师无法将数据转换硬连接到数据中的问题。 相反,它应该类似于应用于一组公共数据的过滤器,所有用户都可以使用这些数据。
因此,不是开发复杂的 ETL 数据管道,而是以原始形式存储数据。 数据的所有权由一个由领域专家组成的团队负责。 Zhamak 解释的新数据网格方法的架构包括以下特征:
- 分散数据和架构的基于域的所有权
- 数据作为产品
- 数据基础设施平台以自助服务模式提供
- 联合计算治理
简而言之,数据网格方法确定只有数据湖具有处理分析需求的灵活性和可扩展性。
数据网格与数据结构
正如我们在上面观察到的,数据网格和数据结构方法之间有很多相似之处。 但是,让我们也看看两者之间的差异。
根据 Forrester 的分析师 Noel Yuhanna 的说法,数据网格和数据结构方法之间的主要区别在于 API 的处理方式。
Data Mesh主要面向开发人员基于 API,而 Data Fabric 则不是。 数据结构本质上与数据网格相反,在数据网格中,开发人员将为 API 编写代码到应用程序的接口。 与数据网格不同,数据结构是一种无代码或低代码方法,其中 API 集成在结构中执行,而不直接利用它。
根据另一位分析师 James Serra 的说法,他在 Ernst & Young 担任大数据和数据仓库架构师,数据网格和数据结构之间的区别在于访问它们的用户类型。
数据网格和数据结构都提供跨不同技术和平台的数据访问。 不同之处在于数据结构更以技术为中心,而数据网格更依赖于组织变革。
根据 Eckerson Group 的分析师 David Wells 的说法,企业可以同时使用数据网格、数据结构甚至数据中心。 Wells 进一步补充说,这两个是概念,在技术上并不相互排斥。
Data Fabric产品主要针对生产使用模式开发,而 Data Mesh 产品是针对业务领域设计的。 元数据的发现是连续的,在 Data Fabric 的情况下分析是一个持续的过程,而在数据网格的情况下,元数据在本地化的业务域中运行并且本质上是静态的。
从部署的角度来看,数据结构利用了当前可用的基础设施,而数据网格则通过业务领域中的新部署来推断当前的基础设施。
数据网格和数据结构都在大数据的董事会中占有一席之地。 在寻找合适的架构框架或架构时。
其他有用的资源:
创建数据驱动文化的 5 个步骤技术漏斗
什么是大数据分析? 初学者指南 | 技术漏斗
为什么数据驱动的文化对数字化转型至关重要
数据挖掘——你需要知道的一切| 技术漏斗