雲的數據質量和可靠性 – Azure、AWS 和 GCP
已發表: 2022-07-01從數據到企業洞察之旅的“數據信任”的聖杯並不是全新的。 由於 BI 和分析工作負載與數據倉庫分離,鴻溝已經擴大。
業務需求、IT 應用環境支持的業務運營以及業務團隊在數據倉庫中積累的數據的可靠性之間存在更大的差距。
出現了一些概念和工具來解決以下形式的差距:
- 每個感興趣的商業實體的黃金記錄。
- 建立在它之上的是主數據管理——在 IBM、Informatica 和 Talend 等供應商的支持下,對如何理解、組織和管理數據的術語表進行標準化。
- 它試圖通過發明業務術語表和大量 ETL 工具來支持業務規則來幫助企業理解數據,從而通過標準化來解決混亂。
在這場混亂中,數據質量解決方案和工具深埋在 MDM 和數據治理計劃中。 儘管如此,仍然存在兩個挑戰——第一個是回顧過去,同時詢問數據是否可信。
其次,“質量”是根據黃金記錄和主數據來衡量的——標準化本身也在不斷發展。
雲上的數據可靠性——為什麼以及發生了什麼變化?
雖然大數據炒作始於 Hadoop,但解決了對容量、速度和準確性的擔憂,但這仍然是企業遊戲。
真正的創新始於 MPP 系統,如 AWS 上的 Redshift 以原生方式構建雲,它保證了處理海量數據集的更高性能,具有良好的經濟性和 SQL 友好的界面。
這反過來又催生了一組數據攝取工具,例如 Fivetran,這使得將數據帶到雲上變得更加容易。
雲上數據基礎設施和現代數據生態系統的演進
今天,數據被存儲在雲文件系統和雲數據倉庫的數據湖中,我們看到這反映在 Databricks 和 Snowflake 等供應商的增長中。
數據驅動的夢想看起來比以前更近了。
業務團隊渴望分析數據並將其轉換為他們的需求,並且 BI 工俱生態系統不斷發展以創建數據的業務視圖。
隨著各種團隊在雲倉庫上轉換和操作數據,數據從嚴格控制和治理的環境轉移到狂野的西部。
數據團隊和依賴數據工程的業務團隊的演變
這不僅僅是數據的數量和增長。 渴望數據的團隊(數據消費者)也以 BI 團隊、分析團隊和數據科學團隊的形式激增。
事實上,在數字原生組織(完全建立在雲上)中,即使是業務團隊也是數據團隊。 例如,營銷人員需要有關產品流量的實時信息來優化活動。
為這些專業和分散的團隊提供他們的要求和期望並不是一件容易的事。
數據生態系統做出了明智的反應,標誌著數據工程和管道的開始作為一個基本單元來打包專門的轉換、連接、聚合等。
現實情況是,數據團隊一直在與損壞的管道、不斷變化的模式和格式進行戰鬥,這些問題會影響所有數據消費者,例如損壞的 BI 儀表板和來自 ML 模型的垃圾預測。
這需要圍繞建立對數據的信任進行新的思考,以前的數據質量指標和方法是不夠的。
我們需要數據可靠性指標來監控和觀察各種形狀(例如分佈)和形式(架構更改、格式更改)的數據變化以及滿足 BI 工程師/分析師和數據科學家需求的數據變化。
幫助小型企業在雲上採用數據可靠性的關鍵因素
隨著企業轉向自助服務工具,商業智能 (BI)、數據分析、損壞的儀表板和漂移的機器學習模型對於各種規模的企業來說都是痛苦的。
事實上,對於擁有較小數據團隊的企業來說,這個問題更加突出,因為他們花費了大量時間來解決數據可靠性問題,否則這些問題可以用來釋放數據的價值。
這也需要一種更經濟的方式,以基於雲原生架構提供工程效率,優化和擴展按需計算和存儲,以提供數據可靠性監控。
無代碼數據質量拯救業務團隊
儘管在使數據更接近業務團隊方面取得了重大進展,但現代數據生態系統中仍然存在未解決的差距。
當前的工具帶來了能力,它們還將數據基礎設施的底層複雜性直接暴露給業務團隊。
大多數企業發現開始使用雲計算具有挑戰性,因為沒有多少低代碼工具可以輕鬆處理數據。
這些工具通常對數據的複雜性有很好的抽象,但它們並不總是具有與用戶的特定目標和目的相一致的用戶界面。
這個領域正在加速發展,我們看到新的團隊在數據可靠性領域帶來了無代碼/低代碼。
有效監控數據基礎設施、數據管道和數據質量+可靠性的新工具
廣泛的工具正在重新構想在雲上監控現代數據生態系統的問題。
Data Dog & New Relic 類工具監控雲上的數據基礎設施。 Unravel 等其他工具可監控雲上的數據堆棧。
還出現了一些工具來監控雲上的數據管道。 最後,Qualdo-DRX 是監控數據質量和可靠性的領先工具,專為所有公共雲提供和重新構想。
對此有什麼想法嗎? 在下面的評論中讓我們知道,或者將討論帶到我們的 Twitter 或 Facebook。
編輯推薦:
- 數據工程師可以將消費者的期望變為現實
- 敏捷方法如何應用於數據倉庫?
- 大數據分析PPTs掌握高級分析技術
- 關於支持雲的企業解決方案的 4 件事