데이터 허브란 무엇입니까? – 완전한 가이드
게시 됨: 2021-08-20데이터를 둘러싼 생태계는 광대한 우주입니다. 모든 조직이 사용 가능한 데이터를 이해하려면 데이터를 관리, 모니터링, 분석 및 해석하기 위한 시스템 구현이 필요합니다. 오늘날 기업에서 데이터는 조직 내 모든 의사 결정을 추진하는 주요 연료입니다. 그러나 이러한 중요도에도 불구하고 데이터가 격리된 시스템에 저장되어 조직에서 데이터를 분석하기가 어렵습니다. 이 데이터 중 일부는 데이터 웨어하우스 또는 데이터 허브에 저장되고 일부는 데이터 레이크라고 하는 곳에서 손실됩니다.
- 데이터 허브 정의
- 어떻게 작동합니까?
- 왜 데이터 허브인가?
- 알아야 할 유형
- Data Hub와 Data Lake의 차이점
- 혜택
- 데이터 허브 기술의 예
데이터 허브란?
데이터 허브는 조직이 전사적 데이터를 통합하고 저장하는 데 도움이 되는 최신 데이터 스토리지 시스템입니다. 또한 기업은 추가 분석을 위해 비즈니스 인텔리전스 시스템 또는 AI 엔진과 같은 다른 시스템에 데이터를 푸시할 수 있습니다. 사일로에서 데이터를 운영하려는 기업은 데이터가 있으면 데이터 관리 프로세스가 완전히 간소화되고 기업 전체의 데이터 흐름이 원활해짐을 이해해야 합니다.
데이터 웨어하우징, 데이터 과학 및 데이터 엔지니어링과 같은 여러 기술이 데이터 허브 아키텍처로 절정에 달합니다. 기술 이상으로 데이터 관리의 효율성과 데이터 저장 방법을 보장하여 조직에서 추가 처리를 지원하는 방법론으로 간주될 수 있습니다.
데이터 허브는 어떻게 작동합니까?
일단 구현되면 각 사용자, 제공 파트너 또는 운영자는 데이터를 데이터 허브 리포지토리로 안전하게 전송할 수 있는 권한을 부여하는 사용 계약을 실행해야 합니다. 이는 사용자가 액세스할 수 있는 데이터의 기밀성을 보장하기 위한 것입니다. 데이터 전송은 안전하고 인정된 통합 방법론을 통해 이루어집니다.
수집된 데이터는 중앙에서 사용 가능하며 균일성을 위해 표준화됩니다. 그 후, 수집된 데이터에 대해 일련의 분석을 실행하여 부서, 운영 단위 및 기타 부문에 걸쳐 의미 있는 정보를 제공할 것입니다. 마지막으로 데이터는 추가 소비를 위해 해당 시스템으로 다시 푸시됩니다. 이것은 아래에 언급된 것처럼 단순화된 다이어그램으로 설명됩니다.
다이어그램 출처: Dataversity(1)
왜 데이터 허브인가?
모든 조직에 데이터 허브가 필요한 주요 이유는 모든 데이터 접점을 연결하고 중앙 위치에서 데이터를 사용할 수 있도록 하는 것입니다. 이를 기술적으로 데이터 통합 이라고 합니다. 기본적인 수준에서 구독 기능을 제공합니다. 그러나 이를 효과적으로 구현하면 기업용 프레임워크로 만드는 다른 많은 요소가 있습니다.
보안
대부분의 회사는 누가 어떤 종류의 데이터에 액세스할 수 있는지에 대한 액세스 제어를 정의하여 보안 조치를 시행합니다. 예를 들어 회사는 일부 직원에게 재무 및 HR 데이터에 대한 액세스 권한을 부여하는 것을 원하지 않거나 고객 데이터를 영업 및 재무 팀으로만 제한해야 합니다. 이를 통해 조직 계층이 잘 정의되고 데이터 액세스 포인트가 잘 분류되며 통제가 제자리에 놓이게 됩니다.
비용 효율적
여러 시스템이 있고 이러한 시스템을 어떻게든 통합했지만 원활하지 않다고 상상해 보십시오. 이러한 개별 시스템을 보유하는 데 이미 투자했으며 이러한 독립 시스템을 통합하는 데 추가로 투자했습니다. 하지만 아직 완전한 증거가 아니어서 가시성이 없다는 문제가 남아 있다. 일정 기간 동안 이 투자는 막대한 운영 비용이 됩니다. 이를 구현하면 원치 않는 통합 접점을 제거하고 단일 지점 간 통합을 수행하여 전체 프로젝트를 보다 비용 효율적으로 만들 수 있습니다.
기민한
데이터 허브를 구현하면 전체 프레임워크가 민첩해집니다. 다른 비즈니스 시스템의 통합을 촉진하고 데이터 흐름이 빠르고 원활해집니다. It이 없으면 시스템이 다른 시스템에서 데이터를 가져오거나 호출하려고 시도하는 시나리오도 있습니다. 그런 다음 통합 접점 및 인터페이스가 생성되어 구현 시간이 몇 주, 몇 주가 추가됩니다. 이를 통해 API 세트, 액세스 정책 및 잘 정의된 구독 프로세스를 통해 중앙 위치에서 모든 데이터를 사용할 수 있습니다.
데이터 허브 유형
이 섹션에서는 다양한 유형과 다양한 유형의 엔드 터치포인트를 살펴보겠습니다.
- 마스터 데이터 허브: 이 유형에서 끝점은 일반적으로 운영 체제입니다. 데이터는 허브 또는 끝점에서 작성됩니다.
- 애플리케이션 데이터 허브: 여기서 다시 데이터 엔드포인트는 운영 체제입니다. 차이점은 데이터 작성에 있습니다. 이 유형에서 데이터는 끝점이 아니라 허브에서 작성되기 때문입니다.
- 통합 데이터 허브: 이 유형에서 데이터 작성은 끝점에서 발생합니다. 이러한 끝점은 운영 체제, 분석 도구 또는 엔진 또는 외부 엔터티와 같은 다양한 유형일 수 있습니다.
- 참조 데이터 허브: 이 유형에서 데이터는 비즈니스 시나리오에 따라 허브 또는 끝에서 생성되고 저장됩니다. 여기서도 끝점은 운영 체제, 분석 도구 또는 엔진 또는 모든 외부 엔터티와 같은 통합 데이터 허브와 유사합니다.
- 분석 데이터 허브: 분석 데이터 허브는 운영 체제인 끝점에서만 데이터를 저장하거나 생성합니다.
데이터 허브 대 데이터 레이크
데이터 웨어하우스, 데이터 레이크 및 데이터 허브를 보면 사람들은 서로 교환할 수 있다고 말합니다. 그러나 그들은 어떤 면에서 다르며 일반적으로 서로를 보완합니다. 데이터 허브와 데이터 레이크의 비교를 살펴보겠습니다.
데이터 허브 | 데이터 레이크 | |
---|---|---|
1차 활용은 운영 프로세스에 관한 것입니다. | 데이터 레이크는 주로 분석, 기계 학습 및 보고에 사용됩니다. | |
일반적으로 구조화된 데이터 세트입니다. | 데이터는 구조화되거나 구조화되지 않을 수 있습니다. | |
규칙을 시행하기 위한 엄격한 거버넌스 프로세스. | 데이터 레이크 액세스에 대한 규칙을 시행하는 엄격한 거버넌스는 없습니다. | |
데이터 허브에서 관리하는 데이터의 품질은 매우 높습니다. | 데이터 레이크에 저장 및 관리되는 데이터의 품질은 중간 또는 낮은 품질입니다. | |
다른 시스템에서/다른 시스템으로 데이터의 양방향 흐름과 실시간 통합을 제공합니다. | 데이터 흐름은 일반적으로 일괄 처리의 ETL 또는 ELT인 완전히 단방향입니다. |
앞서 언급한 차이점 외에도 데이터 허브는 주로 엔터프라이즈 비즈니스 프로세스의 동인으로 간주되는 반면 데이터 레이크는 주로 기계 학습과 관련된 프로세스에 중점을 둡니다.
데이터 허브의 이점
지금까지 우리는 그것이 무엇이며 어떻게 작동하는지 이해했습니다. 우리는 또한 조직 전체에 이 플랫폼을 보유하는 것의 중요성을 알고 있습니다. 다음은 기업 전체에 데이터 허브를 구현하는 몇 가지 중요한 이점입니다.
이를 통해 얻을 수 있는 기본적인 이점은 데이터 공유가 가능하다는 것입니다. 이는 데이터 작성자 또는 소스와 데이터 사용자 또는 소비자를 연결하여 수행됩니다. 이러한 접점은 끝점이라고도 하며 데이터를 데이터 허브에 푸시하거나 데이터를 검색하여 Data Hub와 상호 작용합니다. 허브는 데이터 흐름의 가시성을 제공하는 분기점입니다.
또 다른 이점은 서로 다른 비즈니스 시스템의 끊김 없는 실시간 연결을 설정한다는 것입니다. 이를 통해 특히 데이터를 더 빠른 응답 시간으로 교환해야 하는 경우 데이터 교환과 관련된 주요 문제를 해결할 수 있습니다.
요약하자면 혜택은 4가지 버킷으로 나눌 수 있습니다.
- 사일로에 저장된 데이터를 통합 시스템으로 통합
- 워크플로우 관리를 위한 유연한 고성능 시스템
- 조직 전체의 데이터에 대한 가시성 및 액세스 용이성 향상
- 통합 인터페이스가 있는 통합 시스템
데이터 허브 기술의 예
앞서 언급했듯이 데이터 허브는 단순한 기술이 아니라 조직이 전반적으로 데이터 보기를 중앙 집중화하기 위해 채택한 플랫폼이자 접근 방식입니다. 그러나 우리는 시장에서 판매되는 많은 제품을 봅니다. 다음은 시장에서 기술 제품으로 판매되는 몇 가지 예입니다.
- 구글 광고
- Cloudera, 엔터프라이즈
- 큐뮬로시티 IoT
또한 SAP를 또 다른 예로 봅니다. 아래 다이어그램은 데이터 허브의 구조 및 SAP의 데이터 허브와 다른 비즈니스 시스템 및 기술의 상호 작용에 대한 아이디어를 제공합니다.
출처: SAP(2)
마지막 생각들
오늘날 조직에는 여러 운영 단위가 있고 서로 다른 지리적 위치에 분산되어 있으므로 필요할 때 필요한 경우 추출하여 정보에 입각한 결정을 내리는 데 도움이 될 데이터를 중앙 집중화하는 것이 경영진에게 중요합니다. 데이터 허브를 갖는 것은 단순한 기술 프레임워크 이상의 플랫폼입니다.