什么是数据结构?
已发表: 2022-02-14据说数据结构是所有以数据为中心的组织的必备元素。 在过去的几年里,这个术语与企业数据管理和企业数据集成非常相关。 据分析公司 Gartner 称,Data Fabric 被认为是 2021 年十大数据和分析趋势。Gartner 还估计,到 2024 年,几乎 25% 的数据管理供应商将提供全面的 Data Fabric 解决方案。 这将比目前 5% 的贡献有一个巨大的飞跃。
- 数据结构定义
- 需要数据结构
- 架构
- 关键能力
- 比较
- Data Fabric 用例
- Data Fabric 的优势
什么是数据结构?
简而言之,Data Fabric 是一种简化的、统一的、单一的架构,其中包含一组集成的技术和服务。 创建此集合是为了使用正确的方法在正确的时间向正确的数据客户提供集成和丰富的数据; 处理业务和分析工作。
数据结构包括关键数据管理技术,例如数据目录、数据治理、数据集成、数据管道和数据编排。
资料来源:Gartner Inc. 和/或其附属公司
为什么需要数据结构?
组织需要数据结构的一个根本原因是它服务于许多业务、技术和组织性质的对齐驱动程序。
业务驱动力
- 对于业务驱动因素,Data Fabric 有助于缩短获取洞察力的时间,并有助于更快地做出明智的决策。 这是通过将数据快速传输到数据仓库和数据湖中来完成的。
- Data Fabric 还有助于提供业务实体各个方面的实时 360 度视图,例如客户、供应商、订单、交付、产品等。
组织驱动力
- Data Fabric 充当数据工程师和数据消费者之间的通用语言,从而有助于改善业务团队和数据团队之间的协作。
- 有自助数据访问功能,允许消费者在任何给定时间点获取他们需要的数据。
数据管理驱动
- 数据准备管理可帮助数据科学家和其他 IT 资源避免围绕数据丰富、转换和数据清理进行任何类型的重复性任务。
- 通过数据结构,人们可以使用任何方法访问任何类型的企业范围的数据。 这包括批量数据移动、数据虚拟化,甚至 API。
- Data Fabric 还简化和集成了组织中使用的当前数据管理工具,并优化其他冗余工具以提高成本效益。
Data Fabric 的架构
定义良好的数据结构架构本质上是模块化的,并且支持大规模部署,可以是多云、内部部署,甚至是混合部署。 对于 Data Fabric 架构,数据源的范围从许多在孤岛中工作的遗留系统到最新的云环境。
下图给出了 Data Fabric 架构的概念
资料来源:Gartner Inc. 和/或其附属公司
Data Fabric 的消费者包括数据科学家和分析师、营销分析师、销售分析师以及与云架构师一起从事数据隐私工作的资源。
数据结构的关键能力
以下是 Data Fabric 集成到单个统一平台时支持的一组关键功能:
- 数据目录
对数据资产进行分类、分类并将其放入适当的库存结构中,从而直观地呈现。
- 数据工程
为分析和操作目的开发可靠的数据管道
- 数据治理
确保数据质量,并遵守有关数据隐私、数据安全和可扩展性的法规和协议
- 数据准备
这是关于定义数据流的过程,其中还包括数据清理、丰富、转换和数据验证所涉及的步骤。
- 数据集成和数据交付
这涉及从任何可靠来源提取或检索数据,然后将其提供给数据消费者以进行进一步处理。 这是通过 API、ETL 等完成的。
除了上面提到的核心能力之外,还有一些非核心能力,这些数据结构带来了桌面。
这些如下:
- 数据的规模、数量和性能
- 可访问性
- 分配
- 安全
用于操作工作负载的 Data Fabric/Data Lake/Database 之间的比较
为了帮助您了解数据结构的重要性,让我们看一下各种数据源的优缺点比较
各种数据源 | 优点 | 缺点 |
---|---|---|
数据湖、数据仓库 | 支持跨许多结构化和非结构化数据的数据查询 | 对于导致响应缓慢的单条目数据查询而言,这并不是真正的最佳选择。 不支持实时数据,因此连续数据更新不可靠。 |
没有 SQL 数据库 | 通过分布式数据存储架构支持线性可扩展性 | 不支持 SQL,因此需要专业技能 |
数据结构 | • 完整的 SQL 支持 • 通过分布式数据存储架构支持线性可扩展性 • 支持高并发和实时性能 • 支持单一业务实体的复杂查询 • 支持各种集成方法 • 灵活动态的数据治理结构 | 不适用 |
虽然 Data Fabric 确实是用于大规模运营工作负载的卓越技术,但它也是一种解决方案,可作为数据湖和数据仓库的互惠技术。 对于如此大量的数据工作负载,数据结构可以:
1. 将新鲜的、可信的数据输送到他们那里,用于离线分析。
2. 从他们那里获得业务洞察力,以嵌入到实时运营用例中。
Data Fabric 用例
在整个企业运营中,有多个用例需要能够支持多个事务的大规模和高速数据架构。 这些例子包括:
提供 360 度的客户视图
通过 CRM 系统、IVR 或客户自助服务门户提供全面和单一的客户视图。
遵守数据隐私法
通过采用灵活的工作流程和符合人员、系统和数据之间合规性的数据自动化解决方案。
按需测试数据
帮助创建测试数据仓库并将匿名测试数据共享到各个数据中心,保持整体完整性
Data Fabric 的优势
与一些传统/替代数据管理方法相比,Data Fabric 有很多优势。
- 改进的数据管理
- 扩展数据服务
- 高水平的一致性、可用性和持久性
- 极其严密的安全性
- 高性能
最后的想法
不希望拥有用于数据分析的单一数据结构解决方案和另一种用于运营智能的解决方案的团队。 他们通常更喜欢为两者使用一个数据结构。
其他有用的资源:
创建数据驱动文化的 5 个步骤技术漏斗
2022 年建立数据素养的 12 个技巧技术漏斗
数据中心——您需要知道的一切 | 技术漏斗