클라우드를 위한 데이터 품질 및 안정성 – Azure, AWS 및 GCP
게시 됨: 2022-07-01데이터에서 기업의 통찰력 여정에 이르기까지 "데이터에 대한 신뢰"라는 성배는 완전히 새로운 것은 아닙니다. BI와 분석 워크로드가 데이터 웨어하우스와 분리되면서 그 틈이 벌어졌다.
비즈니스 요구 사항, IT 애플리케이션 환경에서 지원하는 비즈니스 운영, 비즈니스 팀을 위해 데이터 웨어하우스에 축적된 데이터의 신뢰성 사이에는 훨씬 더 큰 격차가 있습니다.
다음과 같은 형태의 격차를 해소하기 위해 개념 및 도구가 등장했습니다.
- 관심 있는 모든 사업체에 대한 골든 레코드.
- 이를 기반으로 하는 것은 마스터 데이터 관리였습니다. 즉, IBM, Informatica 및 Talend와 같은 공급업체가 지원하는 데이터를 이해, 구성 및 관리하는 방법에 대한 용어집을 표준화했습니다.
- 기업이 데이터를 이해할 수 있도록 비즈니스 규칙을 지원하기 위해 비즈니스 용어집과 수많은 ETL 도구를 발명함으로써 표준화를 통해 혼돈을 길들이려고 했습니다.
이 혼란 속에서 데이터 품질 솔루션과 도구는 MDM 및 데이터 거버넌스 이니셔티브에 깊이 묻혀 있었습니다. 여전히 두 가지 문제가 존재했습니다. 첫 번째는 데이터를 신뢰할 수 있는지 여부를 묻는 동안 과거를 살펴보는 것이었습니다.
둘째, '품질'은 골든 레코드와 마스터 데이터(표준화 자체가 지속적으로 진화하고 있음)를 기준으로 측정되었습니다.
클라우드의 데이터 안정성 – 왜 그리고 무엇이 변경되었습니까?
빅 데이터 과대 광고가 Hadoop과 함께 시작되었지만 볼륨, 속도 및 진실성에 대한 우려는 해결되었지만 이는 여전히 기업의 플레이로 남아 있습니다.
진정한 혁신은 기본적으로 클라우드를 구축한 AWS의 Redshift와 같은 MPP 시스템으로 시작되었으며, 우수한 경제성과 SQL 친화적인 인터페이스로 대규모 데이터 세트를 처리하는 더 높은 성능을 보장합니다.
이는 결과적으로 Fivetran과 같은 일련의 데이터 수집 도구에 박차를 가하여 데이터를 클라우드로 더 쉽게 가져올 수 있게 했습니다.
클라우드에서 데이터 인프라와 현대적인 데이터 생태계의 진화
오늘날 데이터는 클라우드 파일 시스템 및 클라우드 데이터 웨어하우스의 데이터 레이크에 저장되고 있으며 이것이 Databricks 및 Snowflake와 같은 공급업체의 성장에 반영된 것을 봅니다.
데이터 중심의 꿈은 이전보다 훨씬 더 가까이 다가왔습니다.
비즈니스 팀은 데이터를 분석하고 필요에 맞게 변환하는 데 열심이었고 BI 도구 에코시스템은 데이터에 대한 비즈니스 관점을 생성하도록 진화했습니다.
다양한 팀이 클라우드 웨어하우스에서 데이터를 변환하고 조작함에 따라 이러한 진화의 밑바닥과 그에 따라 변경된 측면은 데이터가 엄격하게 통제되고 통제되는 환경에서 황량한 서부로 이동되었다는 것입니다.
데이터 팀 및 데이터 엔지니어링 종속 비즈니스 팀의 진화
데이터의 양과 증가뿐만이 아닙니다. 데이터에 굶주린 팀(데이터 소비자)도 BI 팀, 분석 팀, 데이터 과학 팀의 형태로 폭발적으로 증가했습니다.
사실, 디지털 네이티브 조직(순전히 클라우드에 구축됨)에서는 비즈니스 팀도 데이터 팀입니다. 예를 들어 마케팅 담당자는 캠페인을 최적화하기 위해 제품 트래픽에 대한 실시간 정보를 원합니다.
이러한 전문화되고 분산된 팀에 요구 사항과 기대치를 제공하는 것은 쉬운 일이 아닙니다.
데이터 생태계는 데이터 엔지니어링 및 파이프라인의 시작을 특수 변환, 조인, 집계 등을 패키징하는 기본 단위로 표시하는 영리한 움직임으로 대응했습니다.
현실은 데이터 팀이 손상된 BI 대시보드 및 ML 모델의 가비지 예측과 같은 모든 데이터 소비자에게 영향을 미치는 손상된 파이프라인, 스키마 및 형식 변경과의 전투에서 끊임없이 싸우고 있다는 것입니다.
이는 데이터 품질 메트릭과 접근 방식이 충분하지 않은 반면 데이터에 대한 신뢰 구축에 대한 새로운 사고를 요구합니다.
우리는 모든 형태(예: 분포) 및 형태(스키마 변경, 형식 변경)의 데이터 변경과 BI 엔지니어/분석가 및 데이터 과학자의 요구를 충족하는 데이터의 변경을 모니터링하고 관찰하기 위한 데이터 신뢰성 메트릭이 필요합니다.
클라우드에서 소규모 기업의 데이터 안정성 채택을 지원하는 핵심 요소
기업이 셀프 서비스 도구로 이동함에 따라 비즈니스 인텔리전스(BI), 데이터 분석, 고장난 대시보드 및 드리프트 머신 러닝 모델은 모든 규모의 기업에 고통을 줄 수 있습니다.
실제로, 소규모 데이터 팀을 보유한 기업의 경우 데이터의 가치를 실현하는 데 활용될 수 있는 데이터 안정성 문제와 싸우는 데 많은 시간을 할애하기 때문에 문제가 더욱 두드러집니다.
이는 또한 클라우드 네이티브 아키텍처를 기반으로 엔지니어링 효율성을 제공하는 보다 경제적인 방법을 요구하며, 데이터 안정성 모니터링을 위해 최적화되고 확장되는 주문형 컴퓨팅 및 스토리지를 제공합니다.
비즈니스 팀의 구조를 위한 코드 없는 데이터 품질
데이터를 비즈니스 팀에 더 가깝게 가져오는 데 상당한 진전이 있었지만 현대 데이터 에코시스템에는 해결되지 않은 격차가 남아 있습니다.
현재 도구는 기능을 제공하고 데이터 인프라의 근본적인 복잡성을 비즈니스 팀에 직접 노출합니다.
대부분의 기업은 데이터 작업을 쉽게 해주는 로우 코드 도구가 많지 않기 때문에 클라우드 사용을 시작하는 데 어려움을 겪고 있습니다.
이러한 도구는 데이터의 복잡성을 잘 추상화하는 경우가 많지만 사용자의 특정 목표와 목적에 맞는 사용자 인터페이스가 항상 있는 것은 아닙니다.
이 영역은 활기를 띠고 있으며 데이터 신뢰성 영역에서 코드 없음/낮은 코드를 가져오는 새로운 그룹을 보고 있습니다.
데이터 인프라, 데이터 파이프라인 및 데이터 품질+신뢰성을 효과적으로 모니터링하는 새로운 도구
광범위한 도구가 클라우드에서 최신 데이터 에코시스템을 모니터링하는 문제를 재정의하고 있습니다.
Data Dog & New Relic과 유사한 도구는 클라우드의 데이터 인프라를 모니터링합니다. Unravel과 같은 다른 도구는 클라우드에서 데이터 스택을 모니터링합니다.
클라우드에서 데이터 파이프라인을 모니터링하는 도구도 등장하고 있습니다. 마지막으로 Qualdo-DRX는 데이터 품질과 안정성을 모니터링하는 선도적인 도구로, 독점적으로 사용 가능하며 모든 퍼블릭 클라우드에 대해 재창조되었습니다.
이에 대한 생각이 있습니까? 아래 의견에 알려주거나 Twitter 또는 Facebook으로 토론을 진행하십시오.
편집자 추천:
- 데이터 엔지니어는 소비자의 기대치를 실현할 수 있습니다.
- 애자일 방법론은 데이터 웨어하우스에 어떻게 적용됩니까?
- 빅 데이터 분석 고급 분석 기법을 마스터하기 위한 Ppts
- 클라우드 지원 엔터프라이즈 솔루션에 대해 알아야 할 4가지 사항