Data Fabric 與 Data Mesh:區別
已發表: 2022-03-14在為組織的當前和未來需求開發最佳數據架構的過程中,企業可以選擇許多選項。 由於軟件的軟件結構的打包,這些選項可供組織選擇。 企業可能會發現很難選擇正確的選項,這就是為什麼最近出現了來自 maw 的模式,允許組織在數據管理之旅中幫助他們,包括數據結構和數據網格。
首先,從概念的角度來看,數據結構和數據庫都反映了相似性。 網格通常由織物製成,可以根據需要賦予不同的形狀。 這允許 IT 部門將這些網格放置在其他系統之上,這些系統不斷地處於數據處理過程中。
無論這兩種方法看起來多麼相似,都有一些明顯的差異,只有當我們進一步研究這兩種方法時才會注意到這一點。
什麼是數據結構
數據結構的第一個定義出現在 200 年代中期,Forrester 的分析師 Noel Yuhanna 是第一個這樣做的人。 從概念的角度來看,Data Fabric 是一種基於元數據的連接各種數據工具集的方式。 目標是解決一些大數據項目中的主要痛點,不僅以一種有凝聚力的方式,而且以自助服務模式運作。 Data Fabric 解決方案提供了各種功能,例如數據訪問、發現、轉換、集成、治理、沿襲和安全性。
數據結構的概念已經形成了顯著的步伐。 這有助於簡化在不斷增長的異構環境中訪問和管理數據的過程。 異構環境包括事務和操作數據存儲、數據湖、數據倉庫和湖屋。 我們看到越來越多的組織正在開發數據孤島,並且由於雲計算,與數據多樣化有關的問題越來越大。
將單個數據結構放置在數據存儲庫之上,企業可以以統一管理的形式將其打包到不同的數據源,包括下游數據消費者,如數據科學家、數據工程師和數據分析師。 但需要注意的是,數據管理是統一的,而不是實際存儲。 實際存儲仍保留在分佈式模型中。 有許多供應商(例如 Informatica 和 Talend)提供具有上述功能的數據結構。
什麼是數據網格
雖然數據網格確實解決了數據結構所做的大部分問題,例如在異構環境中管理數據的挑戰。 然而,處理和解決這個問題的方法在數據網格方法中是不同的。 雖然數據結構在包含分佈式數據的數據存儲之上創建了單層虛擬管理,但數據網格方法更多的是關於一組分佈式團隊,儘管有一些治理協議,但他們將根據要求管理數據。
數據網格的概念是由 Zhamak Dehgani 定義的。 Zhamak 是 Thoughtworks North America 的技術孵化主管。 指導數據網格方法解決數據湖和數據倉庫之間不兼容問題的基本原則。 第一代數據倉庫旨在存儲海量結構化數據,主要供數據分析師使用。
然而,第二代數據湖用於存儲大量非結構化數據,主要用於構建預測機器學習模型。 在該定義中,Zhamak 解釋了第三代數據倉庫(稱為 Kappa),這完全是關於採用雲服務的實時數據流。 但是,從使用的角度來看,這並不能解決第一代和第二代系統之間的差距。
在保證數據同步的過程中,很多企業都開發和維護了一個詳盡的ETL數據管道。 因此,這就需要非常專業的數據工程師,他們有能力維護此類系統的工作。
Zhamak 提出的一個關鍵點是圍繞工程師無法將數據轉換硬連接到數據中的問題。 相反,它應該類似於應用於一組公共數據的過濾器,所有用戶都可以使用這些數據。
因此,不是開發複雜的 ETL 數據管道,而是以原始形式存儲數據。 數據的所有權由一個由領域專家組成的團隊負責。 Zhamak 解釋的新數據網格方法的架構包括以下特徵:
- 分散數據和架構的基於域的所有權
- 數據作為產品
- 數據基礎設施平台以自助服務模式提供
- 聯合計算治理
簡而言之,數據網格方法確定只有數據湖具有處理分析需求的靈活性和可擴展性。
數據網格與數據結構
正如我們在上面觀察到的,數據網格和數據結構方法之間有很多相似之處。 但是,讓我們也看看兩者之間的差異。
根據 Forrester 的分析師 Noel Yuhanna 的說法,數據網格和數據結構方法之間的主要區別在於 API 的處理方式。
Data Mesh主要面向開發人員基於 API,而 Data Fabric 則不是。 數據結構本質上與數據網格相反,在數據網格中,開發人員將為 API 編寫代碼到應用程序的接口。 與數據網格不同,數據結構是一種無代碼或低代碼方法,其中 API 集成在結構中執行,而不直接利用它。
根據另一位分析師 James Serra 的說法,他在 Ernst & Young 擔任大數據和數據倉庫架構師,數據網格和數據結構之間的區別在於訪問它們的用戶類型。
數據網格和數據結構都提供跨不同技術和平台的數據訪問。 不同之處在於數據結構更以技術為中心,而數據網格更依賴於組織變革。
根據 Eckerson Group 的分析師 David Wells 的說法,企業可以同時使用數據網格、數據結構甚至數據中心。 Wells 進一步補充說,這兩個是概念,在技術上並不相互排斥。
Data Fabric產品主要針對生產使用模式開發,而 Data Mesh 產品是針對業務領域設計的。 元數據的發現是連續的,在 Data Fabric 的情況下分析是一個持續的過程,而在數據網格的情況下,元數據在本地化的業務域中運行並且本質上是靜態的。
從部署的角度來看,數據結構利用了當前可用的基礎設施,而數據網格則通過業務領域中的新部署來推斷當前的基礎設施。
數據網格和數據結構都在大數據的董事會中佔有一席之地。 在尋找合適的架構框架或架構時。
其他有用的資源:
創建數據驅動文化的 5 個步驟技術漏斗
什麼是大數據分析? 初學者指南 | 技術漏斗
為什麼數據驅動的文化對數字化轉型至關重要
數據挖掘——你需要知道的一切| 技術漏斗