クラウドのデータ品質と信頼性 – Azure、AWS、GCP

公開: 2022-07-01

企業のデータからインサイト ジャーニーまでの「データへの信頼」という究極の目標は、まったく新しいものではありません。 BI と分析のワークロードがデータ ウェアハウスから分離されているため、ギャップが拡大しています。

ビジネス ニーズ、IT アプリケーション ランドスケープによってサポートされるビジネス オペレーション、およびビジネス チームのデータ ウェアハウスに蓄積されたデータの信頼性の間には、さらに大きなギャップがあります。

次の形でギャップに対処するための概念とツールが登場しました。

  • 関心のあるすべてのビジネス エンティティのゴールデン レコード。
  • その上に構築されたのがマスター データ管理でした。IBM、Informatica、Talend などのベンダーがサポートするデータの理解、整理、管理方法に関する用語集を標準化しました。
  • ビジネス用語集や大量の ETL ツールを発明してビジネス ルールをサポートし、ビジネスがデータを理解できるようにすることで、標準化によって混乱を緩和しようとしました。

この混乱の中で、データ品質ソリューションとツールは、MDM とデータ ガバナンス イニシアチブの奥深くに埋もれていました。 それでも、2 つの課題がありました。1 つ目は、データが信頼できるかどうかを尋ねながら、過去を調査することでした。

第二に、「品質」はゴールデン レコードとマスター データに関して測定されました。標準化自体は常に進化していました。

クラウド上のデータの信頼性 – なぜ、何が変わったのか?

データ エンジニア
画像: ペクセル

ビッグ データの誇大宣伝は Hadoop で始まりましたが、量、速度、および正確性に関する懸念が取り組まれましたが、これは依然として企業の取り組みでした。

真のイノベーションは、クラウド ネイティブに構築された AWS 上の Redshift などの MPP システムで始まりました。これにより、優れた経済性と SQL に適したインターフェイスを備えた大規模なデータセットを処理するためのより高いパフォーマンスが保証されました。

これにより、Fivetran などの一連のデータ取り込みツールに拍車がかかり、クラウドへのデータの取り込みが容易になりました。

クラウド上のデータ インフラストラクチャと最新のデータ エコシステムの進化

現在、データはクラウド ファイル システムやクラウド データ ウェアハウスのデータ レイクに保存されており、これは Databricks や Snowflake などのベンダーの成長に反映されています。

データドリブンになるという夢は、以前よりもはるかに近づいているように見えました。

ビジネス チームは、データを分析してニーズに合わせて変換することに熱心でした。BI ツール エコシステムは、データに関するビジネス ビューを作成するために進化しました。

この進化の下で、またそれに沿って変化した側面は、さまざまなチームがクラウド ウェアハウスでデータを変換および操作するにつれて、データが厳密に制御および管理された環境から西部開拓時代に移動したことです。

データ チームとデータ エンジニアリングに依存するビジネス チームの進化

データの量と増加だけではありません。 データに飢えたチーム (データ コンシューマー) も、BI チーム、分析チーム、データ サイエンス チームの形で急増しています。

実際、デジタル ネイティブな組織 (純粋にクラウド上に構築された組織) では、ビジネス チームでさえデータ チームです。 たとえば、マーケティング担当者は、キャンペーンを最適化するために製品トラフィックに関するリアルタイムの情報を必要としています。

これらの専門的で分散化されたチームの要件と期待に応えることは、簡単な作業ではありません。

データ エコシステムは巧妙な動きで対応し、データ エンジニアリングとパイプラインの始まりを、特殊な変換、結合、集計などをパッケージ化するための基本単位としてマークしました。

現実には、データ チームは壊れたパイプライン、変更されたスキーマ、および形式との戦いに常に取り組んでおり、破損した BI ダッシュボードや ML モデルからのガベージ予測など、すべてのデータ コンシューマーに影響を与えています。

これにより、データへの信頼を構築するための新しい考え方が求められます。これまでのデータ品質の指標とアプローチでは不十分です。

すべての形状 (例: ディストリビューション) とフォーム (スキーマの変更、フォーマットの変更)、および BI エンジニア/アナリストとデータ サイエンティストのニーズを満たすデータの変更を監視および観察するには、データの信頼性メトリックが必要です。

中小企業がクラウドでデータの信頼性を採用するのを支援する主な要因

Windowsのicloudパスワードマネージャー
画像:ノウテック

企業がビジネス インテリジェンス (BI)、データ分析、壊れたダッシュボード、ドリフトする機械学習モデルのセルフサービス ツールに移行するにつれて、あらゆる規模の企業にとって苦痛になる可能性があります。

実際、小規模なデータ チームを持つ企業では、データの信頼性の問題との闘いに多くの時間を費やしているため、この問題は顕著になります。

これには、クラウドネイティブ アーキテクチャに基づいてエンジニアリング効率を実現し、データの信頼性を監視するためのオンデマンド コンピューティングとストレージを最適化およびスケーリングする、より経済的な方法も必要です。

ビジネスチームを救うノーコードデータ品質

データをビジネス チームに近づけるという大きな進歩が達成されましたが、最新のデータ エコシステムには未解決のギャップが残っています。

現在のツールは機能を提供するだけでなく、データ インフラストラクチャの根底にある複雑さをビジネス チームに直接公開します。

ほとんどの企業は、データを簡単に操作できるローコード ツールがあまりないため、クラウドの使用を開始するのが難しいと感じています。

これらのツールは、多くの場合、データの複雑さを適切に抽象化していますが、ユーザーの特定の目標や目的に合わせたユーザー インターフェイスを常に備えているとは限りません。

この分野は勢いを増しており、データの信頼性分野でノーコード/ローコードを導入する新しいグループが見られます。

データ インフラストラクチャ、データ パイプライン、データの品質と信頼性を効果的に監視するための新しいツール

さまざまなツールが、クラウド上の最新のデータ エコシステムを監視する問題を再考しています。

Data Dog と New Relic のようなツールは、クラウド上のデータ インフラストラクチャを監視します。 Unravel などの他のツールは、クラウド上のデータ スタックを監視します。

クラウド上のデータ パイプラインを監視するツールも登場しています。 そして最後に、Qualdo-DRX は、データの品質と信頼性を監視するための主要なツールであり、すべてのパブリック クラウド専用に再構築されたものです。

これについて何か考えはありますか? 以下のコメント欄でお知らせいただくか、Twitter または Facebook で議論を進めてください。

編集者の推奨事項:

  • データ エンジニアは、消費者の期待に命を吹き込むことができます
  • アジャイル手法はデータ ウェアハウスにどのように適用されますか?
  • 高度な分析手法を習得するためのビッグデータ分析 Ppts
  • クラウド対応のエンタープライズ ソリューションについて知っておくべき 4 つのこと