데이터 레이크 대 데이터 웨어하우스: 이 4가지 주요 차이점을 알고 계셨습니까?
게시 됨: 2023-03-27기업은 새로운 인프라와 데이터 관리 기능을 요구하는 데이터 붐을 목격하고 있습니다. 2022년 연구에 따르면 대부분의 기업은 IT 예산의 30% 이상을 데이터 스토리지, 백업 및 재해 복구에 지출합니다. 그리고 이는 정형 및 비정형 데이터 세트를 모두 포괄합니다.
데이터 운영과 관련된 두 가지 중요한 개념은 레이크와 웨어하우스입니다. 몇 가지 공통점이 있습니다. 예를 들어 둘 다 스토리지에 사용되며 둘 다 클라우드와 상호 운용 가능합니다. 그러나 데이터 레이크와 데이터 웨어하우스의 차이점을 알면 사용을 최적화하는 데 도움이 될 수 있습니다. 예를 들어 데이터 레이크는 웨어하우스보다 구조화되지 않은("빅") 데이터에 더 적합합니다.
이것과 데이터 레이크와 데이터 웨어하우스 간의 다른 차이점에 대해 논의하기 전에 각 개념에 대해 간략하게 논의하겠습니다.
데이터 레이크란 무엇입니까?
데이터 레이크는 사용에 필요할 때까지 처리되지 않은 많은 양의 데이터를 포함하는 방대하고 대규모로 확장 가능한 스토리지 센터입니다.
계정 또는 파일의 볼륨이나 크기에 대한 제한이 없으며 지정된 사용 사례도 없습니다. 따라서 모든 종류의 데이터가 포함될 수 있습니다. 데이터는 처리되지 않거나 반구조화되거나 구조화될 수 있으며 다양한 소스에서 가져올 수 있습니다. 필요할 때마다 데이터 레이크에서 데이터를 검색할 수 있습니다.
엄청난 양의 데이터를 수집하고 저장해야 하고 즉시 처리하거나 분석해야 하는 경우 데이터 레이크 모델을 사용할 수 있습니다. 데이터 과학자 또는 엔지니어는 데이터 레이크의 최종 사용자입니다.
여러 소스의 중앙 집중화는 데이터 레이크의 주요 이점입니다. 그러나 몇 가지 단점도 기억해야 합니다. 데이터 보안 및 액세스 관리는 데이터 레이크에 대한 가장 큰 위험을 나타냅니다. 개인 정보 보호에 대한 가능한 요구 사항으로 인해 감독 없이 레이크에 버려진 데이터는 위협이 됩니다.
또한 데이터 품질에 문제가 있을 수 있습니다. 충분한 고려와 주의가 없다면 데이터 레이크는 뚜렷한 식별이나 인덱싱 없이 사용할 수 없는 구조화되지 않은 데이터의 늪으로 변질될 수 있습니다.
데이터 웨어하우스란 무엇입니까?
데이터 레이크와 달리 데이터 웨어하우스는 운영 및 외부 소스 모두에서 방대한 엔터프라이즈 데이터를 선택합니다. 정보는 이미 특정 목적을 위해 구조화, 필터링 및 배열되었습니다.
데이터 웨어하우스는 중간 규모 및 대규모 기업의 부서별 데이터베이스 간에 정보 교환을 용이하게 하는 데 자주 사용됩니다. 다른 요소 중에서 제품, 주문, 고객, 재고 및 작업자에 대한 정보를 보유할 수 있습니다. 기업가와 비즈니스 소비자는 데이터 웨어하우스의 최종 사용자입니다.
유용한 비즈니스 정보를 얻기 위해 대부분의 회사는 서로 다른 플랫폼에서 개발된 많은 하위 시스템의 데이터를 집계해야 합니다. 이 문제는 조직의 모든 데이터를 중앙 집중식 저장소로 통합하고 단일 사이트에서 액세스할 수 있는 데이터 웨어하우징으로 해결됩니다.
데이터 웨어하우스를 사용하는 동안 고려해야 할 몇 가지 단점이 있습니다. 지속적인 데이터 정리, 변환 및 통합이 필요합니다. 회사가 달성하고자 하는 많은(때로는 모순되는) 목표로 인해 구현이 어려울 수 있습니다.
또한 데이터 웨어하우스는 IT 및 운영 시스템의 재구성이 필요할 수 있습니다.
보시다시피 데이터 레이크와 데이터 웨어하우스에는 고유한 장단점이 있습니다. 각 시스템을 적절하게 사용하려면 둘 사이의 차이점을 아는 것이 중요합니다.
데이터 레이크는 구조화되지 않은 데이터를 지원하지만 웨어하우스는 지원하지 않습니다.
이것이 아마도 데이터 레이크와 데이터 웨어하우스 간의 가장 큰 차이점일 것입니다.
데이터 레이크에서 원시 데이터는 원래 형식으로 저장됩니다. 사물인터넷(IoT) 기기 로그(텍스트), 사진(.png,.jpg), 동영상(.mp4,.wav 등) 등의 반정형 및 비정형 데이터와 기타 정형 포맷, 트랜잭션 CRM(Customer Relationship Management) 및 ERP(Enterprise Resource Planning) 시스템을 통해 받은 정보는 물론 소셜 미디어 채팅과 같은 빅 데이터도 통합할 수 있습니다.
반대로 데이터 웨어하우스는 SQL(구조적 쿼리 언어) 쿼리를 사용하여 액세스할 수 있는 텍스트, 숫자 및 기타 형식의 데이터를 저장할 수 있습니다. 이는 웨어하우스에 저장된 데이터 범주가 관계형 데이터베이스에서 발견된 범주와 동일함을 나타냅니다.
데이터 레이크를 사용하면 비정형, 반정형 및 정형 정보를 저장할 수 있지만 데이터 웨어하우스에 저장된 대부분의 데이터는 정형입니다. 그러나 Snowflake(변형 및 개체 데이터 유형을 특징으로 함)와 같은 특정 데이터 세트는 반구조화된 데이터도 저장할 수 있습니다.
데이터 웨어하우스는 비정형 리소스와 반정형 리소스 모두에서 정보를 저장할 수 있지만 변환된 후에만 가능합니다.
( 또한 읽기 : 데이터 프라이버시 대 데이터 보안)
데이터 레이크는 읽기 시 스키마를 사용하고 데이터 웨어하우스는 쓰기 시 스키마를 사용합니다.
스키마는 형식화된 데이터 구성을 설명합니다. 데이터 레이크는 스키마 온 읽기의 이점을 얻습니다. 이와 같이 데이터를 수신할 때마다 형식과 구조가 지정되지만 데이터 레이크를 쿼리하기 전에 설정된 big-O(함수의 순서) 규칙이 없습니다.
웨어하우스와 달리 레이크는 기록 중 스키마를 사용하지 않습니다. 즉, 데이터 웨어하우스로 전송하기 전에 데이터의 구조와 구성을 지정해야 합니다.
반대로 데이터 설계자나 운영자는 데이터 웨어하우스용 데이터 프레임워크에 많은 노력을 기울여야 합니다. 이는 데이터 구조가 데이터 분석가를 위해 활용하고 보고하기 간단해야 한다는 사실 때문입니다. 여기에는 정규화 또는 비정규화 테이블과 스타 및 눈송이 스키마가 모두 포함됩니다. 데이터 모델은 연구 및 비즈니스 인텔리전스를 위해 준비되어야 하므로 schema-on-write가 사용됩니다.
데이터 레이크와 데이터 웨어하우스의 이러한 차이점은 한 가지 중요한 사실에서 비롯됩니다. 레이크는 기업에 필요한 모든 데이터를 보유하고 나중에 사용할 수 있으며 절대 사용하지 않을 수 있습니다. 반면에 데이터 웨어하우스는 사용 준비가 더 잘 되어 있어야 하므로 흡수하기 전에 궁극적으로 저장할 자료를 신중하게 선택합니다.
데이터 웨어하우스는 ETL 워크플로를 사용하며 일반적으로 더 비쌉니다.
추출, 변환 및 로드(ETL) 방법은 데이터를 웨어하우스로 전송하는 데 사용됩니다. 취한 조치는 다음과 같습니다.
- 원시 데이터 소스에서 정보 얻기
- 데이터 오염 제거 및 해석
- 운영 데이터 저장소에 자료 추가
반대로 데이터 레이크는 ELT 접근 방식을 사용합니다. 필요한 경우 데이터 분석가 또는 설계자가 분석 후 데이터를 수정합니다. 데이터 레이크와 데이터 웨어하우스 간의 이러한 차이는 또 다른 중요한 요소에 기여합니다. 데이터 레이크는 확장 가능하고 저렴한 상용 서버는 물론 저비용 특수 계층이 있는 클라우드 주도 객체 스토리지를 사용하지 않아도 됩니다. 이렇게 하면 저장된 데이터의 기가바이트당 가격이 낮아집니다.
반대로 데이터 웨어하우스는 저장 비용과 함께 분석 쿼리를 실행하는 데 필요한 추가 처리 리소스로 인해 훨씬 더 비쌉니다. ELT 대신 ETL을 사용하면 추가 비용이 발생합니다.
데이터 레이크는 사용하기 쉽지만 웨어하우스의 데이터는 더 많이 사용할 수 있습니다.
"사용 용이성"이라는 단어는 데이터 저장소에 저장된 데이터가 아니라 데이터 저장소의 전반적인 유용성을 의미합니다. 데이터 레이크의 아키텍처는 명확한 구조가 없기 때문에 액세스 및 변경이 간단합니다. 또한 데이터 레이크에는 제한이 없기 때문에 사용자가 데이터를 빠르게 변경할 수 있습니다. 정의에 따르면 데이터 웨어하우스는 훨씬 더 구조화되어 있습니다.
데이터 웨어하우스에서 데이터를 처리하고 구성하면 데이터를 더 쉽게 해석하고 활용할 수 있습니다. 웨어하우스에 저장된 각 정보는 특정 목적을 위해 필터링되고 처리된 데이터만 저장됩니다. 즉, 결코 사용되지 않을 수도 있는 정보에 공간이 낭비되지 않으며 데이터는 모두 사용할 준비가 되어 있습니다.
그러나 구조적 제한으로 인해 데이터 웨어하우스를 수정하기 어렵고 비용이 많이 듭니다.
보시다시피 데이터 레이크와 데이터 웨어하우스는 비즈니스에 중요한 이점을 제공합니다. 정기적으로 빅 데이터를 다루는 경우 레이크는 필수입니다. 이에 비해 웨어하우스는 Power BI 및 분석에 필수적이며 종종 최상의 결과를 위해 두 가지를 나란히 사용합니다.