データハブとは何ですか? –完全ガイド

公開: 2021-08-20

データを取り巻くエコシステムは広大な宇宙です。 非常に多様であるため、組織が利用可能なものを理解するには、データを管理、監視、分析、および解釈するためのシステムの実装が必要になります。 今日の企業にとって、データは組織内のすべての意思決定を推進する主要な燃料です。 ただし、この重要性があっても、データは分離されたシステムに保存されているため、組織がデータを分析することは困難です。 このデータの一部はデータウェアハウスまたはデータハブに保存され、一部はいわゆるデータレイクで失われます。

記事上で
  • データハブを定義する
  • それはどのように機能しますか?
  • なぜデータハブなのか?
  • 知っておくべきタイプ
  • データハブとデータレイクの違い
  • メリット
  • データハブテクノロジーの例

データハブとは何ですか?

データハブは、組織が企業全体のデータを統合して保存するのに役立つ最新のデータストレージシステムです。 また、企業はデータをビジネスインテリジェンスシステムやAIエンジンなどの他のシステムにプッシュして、さらに分析することもできます。 サイロでデータを運用しようとしている企業は、データを持つことでデータ管理プロセスが完全に合理化され、企業全体のデータフローがスムーズになることを理解する必要があります。

データウェアハウジング、データサイエンス、データエンジニアリングなど、データハブアーキテクチャに至る複数のテクノロジーがあります。 テクノロジー以上に、データの管理とデータの保存方法の有効性を確保し、組織がさらに処理するのを支援する方法論と見なすことができます。

Data Hubはどのように機能しますか?

実装後、各ユーザー、配信パートナー、またはオペレーターは、データをデータハブリポジトリに安全に転送する許可を与える使用契約を締結する必要があります。 これは、ユーザーがアクセスできるデータの機密性を確保するためです。 データの転送は、安全で認識された統合方法論を通じて行われます。

収集されたデータは一元的に利用可能になり、統一性のために標準化されます。 その後、収集されたデータに対して一連の分析が実行され、部門、営業部門、およびその他のセクターにわたって意味のある情報が提供されます。 最後に、データはさらに消費するためにそれぞれのシステムにプッシュバックされます。 これは、以下に説明するように簡略化された図で説明されています

ダイアグラムソース:Dataversity(1)

なぜデータハブなのか?

組織がデータハブを必要とする主な理由は、すべてのデータタッチポイントを接続し、データを中央の場所で利用できるようにすることです。これは、技術的にはデータ統合と呼ばれます。 基本的なレベルでは、サブスクリプション機能を提供します。 ただし、それを効果的に実装すると、他にも多くの要因があり、企業にとってフレームワークになります。

  • 安全

    ほとんどの企業は、誰がどの種類のデータにアクセスできるかについてアクセス制御を定義することにより、セキュリティ対策を実施しています。 たとえば、企業は一部の従業員に財務および人事データへのアクセスを許可したくない場合や、顧客データを営業および財務チームのみに制限する必要がある場合があります。 これにより、組織の階層が明確に定義され、データアクセスポイントが適切に分類され、制御が適切に行われるようになります。

  • 費用対効果

    複数のシステムがあり、これらのシステムを何らかの形で統合しているが、シームレスではない場合を想像してみてください。 これらの個別のシステムを使用するためにすでに投資があり、これらの独立したシステムを統合するためにさらに投資しました。 しかし、それは完全な証拠ではなかったので、可視性を持たないという課題がまだあります。 ある期間にわたって、この投資は莫大な運用費になります。 これを実装すると、不要な統合タッチポイントがなくなり、単一のポイントツーポイント統合が可能になり、プロジェクト全体の費用効果が高まります。

  • アジャイル

    データハブを実装すると、フレームワーク全体がアジャイルになります。 他のビジネスシステムの統合を促進し、データの流れが高速かつシームレスになります。 それがない場合、システムが他のシステムからデータをフェッチまたは呼び出しようとするシナリオもあります。 次に、統合タッチポイントとインターフェイスの作成があり、数週間と数週間の実装時間が追加されます。 これにより、一連のAPI、アクセスポリシー、および明確に定義されたサブスクリプションプロセスを通じて、すべてのデータを中央の場所で利用できるようになります。

データハブの種類

このセクションでは、さまざまなタイプと、さまざまなタイプのエンドタッチポイントについて説明します。

  1. マスターデータハブ:このタイプでは、エンドポイントは通常、運用システムです。 データはハブまたはエンドポイントのいずれかで作成されます
  2. アプリケーションデータハブ:ここでも、データエンドポイントは運用システムです。 このタイプでは、データはエンドポイントではなくハブでオーサリングされるため、違いはデータオーサリングにあります。
  3. Integration Data Hub:このタイプでは、データオーサリングはエンドポイントで行われます。 これらのエンドポイントは、運用システム、分析ツールやエンジン、または外部エンティティなど、さまざまなタイプにすることができます。
  4. 参照データハブ:このタイプでは、ビジネスシナリオに応じて、データが作成され、ハブまたは最後に保存されます。 ここでも、エンドポイントは、運用システム、分析ツールやエンジン、または外部エンティティなどの統合データハブに似ています。
  5. 分析データハブ:分析データハブは、運用システムであるエンドポイントでのみデータを保存または作成します。

データハブとデータレイク

データウェアハウス、データレイク、データハブを見ると、互換性があると言われています。 ただし、それらはいくつかの点で異なり、通常は互いに補完し合っています。 データハブとデータレイクの比較を見てみましょう。

データハブデータレイク
主な利用は、運用プロセスに関するものです。 データレイクは、主に分析、機械学習、レポートに使用されます。
通常、これは構造化されたデータセットです。 のようなデータは、構造化および非構造化できます。
ルールを実施するための厳格なガバナンスプロセス。 データレイクにアクセスするためのルールを適用するための厳密なガバナンスはありません。
データハブで管理されるデータの品質は非常に高いです。 データレイクに保存および管理されるデータの品質は、中品質または低品質です。
他のシステムとの間のデータの双方向フローとのリアルタイム統合を提供します。 データのフローは完全に一方向であり、通常はバッチのETLまたはELTです。

前述の違いに加えて、データハブは主にエンタープライズビジネスプロセスの推進力と見なされていますが、データレイクは主に機械学習に関連するプロセスに焦点を当てています。

データハブのメリット

これで、それが何であり、どのように機能するかを理解できました。 また、組織全体でこのプラットフォームを使用することの重要性もわかっています。 企業全体にデータハブを実装することの重要な利点は次のとおりです。

それを持つことの基本的な利点は、データの共有を可能にすることです。 これは、データの作成者またはソースとデータのユーザーまたはコンシューマーを接続することによって行われます。 これらのタッチポイントはエンドポイントとも呼ばれ、データをデータハブにプッシュしたりデータを取得したりすることでデータハブとやり取りします。 ハブはジャンクションであり、データフローの可視性を提供します。

もう1つの利点は、さまざまなビジネスシステムのシームレスでリアルタイムの接続を確立することです。 これにより、特にデータをより高速な応答時間で交換する必要がある場合に、データ交換に関する主要な課題に対処できます。

要約すると、メリットは4つのバケットに入れることができます

  • サイロに保存されたデータを統合システムに統合
  • ワークフローを管理するための柔軟で高性能なシステム
  • 組織全体のデータへの可視性とアクセスのしやすさの向上
  • 統一されたインターフェースを備えた統一されたシステム

データハブテクノロジーの例

前述のように、データハブは単なるテクノロジーではなく、組織がデータのビューを全面的に一元化するために採用するプラットフォームおよびアプローチです。 しかし、市場で販売されている製品はたくさんあります。 市場でテクノロジー製品として販売されているいくつかの例を次に示します。

  • Google広告
  • Cloudera、エンタープライズ
  • Cumulocity IoT

さらに、SAPも別の例として見ています。 次の図は、データハブの構造と、SAPのデータハブと他のビジネスシステムおよびテクノロジーとの相互作用についてのアイデアを示しています。

出典: SAP(2)

最終的な考え

現在、組織には地理的に異なる場所に分散した複数のオペレーティングユニットがあるため、必要に応じて必要に応じて抽出し、十分な情報に基づいて決定を下すのに役立つデータを管理者が一元化することが重要です。 データハブを持つことは、単なるテクノロジーフレームワークというよりもプラットフォームです。