원시 데이터를 비즈니스 자산으로 전환하는 방법
게시 됨: 2022-10-10많은 회사에서 처리할 수 있는 데이터가 많지만 어떻게 해야 할지 모릅니다. 이것은 고객, 조직의 전화번호, GPS 추적기의 데이터 등에 대한 정보일 수 있습니다. 데이터를 수집, 구성 및 분석하면 유용하게 사용됩니다.
예를 들어, 회사는 개인과 기업에 다양한 소포와 화물을 배달하는 일을 하고 있습니다. 주문을 처리하는 동안 관리자는 패키지의 크기/무게, 비용 및 운전자가 이동하는 배송 거리에 대한 일일 데이터를 받습니다. 분석이 없는 이 모든 정보는 가치가 없습니다.
약간의 통계 분석을 통해 배송이 증가한 시기, 이동 거리 분포, 가장 자주 주문하는 품목 등을 파악할 수 있습니다. 이 데이터를 기반으로 회사의 광고 부서는 대상 고객을 위한 개인화된 캠페인을 만들 수 있습니다. 또한 예를 들어, 더운 계절(가을 초와 같은)에 대비하여 운전자를 준비하거나 더 많이 고용하고 새 트럭 구매를 옹호하는 등의 작업을 도울 수 있습니다.
또 다른 예. 상품을 운송하는 회사는 자동차 운전자로부터 매일 데이터를 수집합니다. 텔레매틱 시스템은 주행 마일 수와 연료 소비량을 추적합니다. 이 정보를 체계화하면 여행을 더 효율적으로 만들고 더 경제적이고 안전한 경로를 계산할 수 있습니다. Twinslash와 같은 물류 소프트웨어 공급업체가 그렇게 하고 있습니다.
의료 분야에서 유용한 데이터는 운영을 크게 향상시킬 수도 있습니다. 의료 기록과 실험실 데이터(특히 영상 데이터)의 처리 및 분석을 통해 의사는 인간이 간과하는 패턴과 경향을 인지하는 기계 학습 알고리즘을 사용하여 보다 정확한 진단과 새로운 치료 방법으로 이어질 전략을 고안할 수 있습니다.
의심할 여지 없이 데이터는 비즈니스의 자산입니다. 이는 시장에서 경쟁력을 높이고 비즈니스 전략을 재정립하는 데 도움이 됩니다. 그러나 비정형 및 비정형 시스템에서 수집한 다양한 값인 원시 데이터가 유용해지기 전에 처리해야 합니다.
ETL 파이프라인을 통해 원시 데이터 이해
ETL(Extract-Transform-Load)은 다양한 소스에서 데이터를 수집 및 변환하여 중간 저장소 기반으로 전송하도록 설계된 기술입니다. 그런 다음 이 스토리지 기반을 데이터 웨어하우스/데이터 풀로 사용할 수 있으며 그 안의 데이터는 분석, 예측 등을 위해 기계 학습/AI 알고리즘에 입력할 수 있습니다.
ETL 방법은 어떻게 작동합니까? 우선 기업이 보유한 데이터에 따라 웹 페이지, CRM, SQL 및 NoSQL 데이터베이스, 이메일 등 다양한 소스에서 데이터를 가져옵니다.
그런 다음 데이터가 변환되고 정렬됩니다. 정렬하는 동안 자동화 알고리즘이나 수동으로 정렬하는 사람은 모든 중복, 정크 데이터 등을 제거합니다. ETL은 레거시 시스템의 원시 데이터에서 통찰력을 처리하고 드러내는 데 완벽합니다. 이것이 ETL이 여행 산업 내에서 활용하는 데 매우 유용한 이유입니다. , 의료, 핀테크 및 기타 분야는 고립되어 있고 종종 디지털 혁신에 저항합니다.
그런 다음 데이터가 다시 수동 또는 자동으로 대상 시스템에 로드됩니다.
ETL을 사용할 수 있습니다.
- 모든 소스 데이터가 관계형 데이터베이스에서 제공되거나 대상 시스템에 로드하기 전에 철저히 정리해야 하는 경우
- 레거시 시스템 및 관계형 데이터베이스로 작업할 때
- 회사가 데이터를 신중하게 보호하고 HIPAA, CCPA 또는 GDPR과 같은 다양한 규정 준수 표준을 준수해야 하는 경우(의료 및 핀테크 산업의 또 다른 큰 장점)
ETL 파이프라인은 입증되고 안정적이지만 매우 느리고 Informatica, Cognos, Oracle 및 IBM과 같은 추가 도구가 필요합니다.
새로운 ELT 파이프라인으로 더 빠르게 데이터 엔지니어링 수행
정보의 양은 지속적으로 증가하고 있습니다. 그리고 ETL 방법론이 비즈니스 인텔리전스 목적을 위해 방대한 데이터 세트를 처리해야 하는 요구 사항을 항상 충족할 수는 없습니다.
따라서 새롭고 보다 현대적인 방법인 ELT(Extract-Load-Transform)가 등장했습니다. 또한 데이터 수집, 정리, 구성 및 로드에 관한 것입니다. 그러나 데이터가 직접 창고로 이동하여 다양한 방식으로 확인, 구조화 및 변환할 수 있다는 점에서 ETL과 다릅니다. 정보는 무기한 저장할 수 있습니다. 따라서 ETL 방법이 더 유연하고 빠릅니다. 이러한 프로세스를 수행하려면 Kafka, Hevo 데이터 및 Talend와 같은 도구가 필요합니다.
ELT를 사용하는 경우:
- 비즈니스 목표를 달성하기 위해 신속하게(!) 데이터를 수집하고 결정을 내려야 할 때 ELT는 예를 들어 스타트업 확장/비즈니스 재포지셔닝 시 마케팅 데이터에서 선택하는 데 매우 유용합니다.
- 회사가 지속적으로 대량의 비정형 정보를 수신하는 경우
- 클라우드 프로젝트 또는 하이브리드 아키텍처를 다루고 있습니다.
ELT는 점차 ETL을 대체하는 보다 현대적인 방법입니다. 이를 통해 경쟁 시장에서 프로젝트를 신속하게 확장할 수 있습니다. ELT는 경제적이고 유연하며 최소한의 유지 관리가 필요합니다. 다양한 산업 및 규모의 기업에 적합합니다.
더 나은 결정을 위해 데이터 파이프라인을 사용하는 예
많은 대기업에서 잘 정립된 데이터 파이프라인을 통해 지원되는 데이터 분석을 성공적으로 사용하여 다양한 비즈니스 목표를 달성할 수 있음을 입증했습니다.
전자 상거래에서 데이터 파이프라인을 활용하는 좋은 예는 Amazon의 추천 엔진 입니다. Amazon은 전자 상거래 제품에 고유한 동적 추천 모델을 구현했습니다. Amazon 추천 엔진은 웹사이트를 통한 여정의 모든 단계에서 구매자와 상호 작용하여 대상 제품을 제안하고 구매를 유도합니다.
회사는 사용자가 이미 구매하고 평가한 상품과 유사하거나 관련된 거래 포지션을 일치시키는 알고리즘을 개발하고 구현했습니다. 엔진은 이들을 추천 목록으로 조합합니다. 시스템은 많은 명시적 및 암시적 데이터에 의존합니다. 사용자의 구매, 제품 평가, 웹사이트에서의 검색 기록, 시스템이 정확한 개인화된 추천을 생성할 수 있도록 하는 장바구니에 담기.
여행 및 운송의 사용 사례는 Otonomi의 예측 엔진 입니다. 화물 산업에 속한 회사인 Otonomi는 OAG 데이터를 기반으로 파라메트릭 솔루션을 개발했습니다. 이를 통해 Otonomi는 OAG에서 제공하는 여행 데이터를 사용하여 항공기 지연을 시간에 따라 결정 및 예측하고, 가격을 보다 정확하게 계산하고, 가능한 위험을 계산할 수 있습니다. 효율적인 중단 관리를 위한 데이터의 신속한 처리 및 통찰력 생성으로 인해 회사는 관리 및 운영 비용을 크게 줄일 수 있었습니다.
우리는 이미 건강 데이터를 잘 활용하는 것이 환자의 결과에 긍정적인 영향을 미칠 수 있다는 점에 대해 이야기 했으므로 이점도 있습니다. 농업 회사는 수확 과정을 개선하기 위해 날씨, 농산물 및 농기계 부품 가격에 대한 데이터를 사용할 수 있습니다. 보험 회사는 고객 청구 내역을 사용하여 사기를 감지할 수 있습니다. 미디어에서 익명의 고객 데이터를 사용하여 사용자의 행동 패턴을 식별하여 전환을 개선하기 위해 UX를 변경할 수 있는 부분을 파악할 수 있습니다.
최종 생각: 접근성 및 데이터 활용 능력을 잊지 마세요
회사의 모든 사람은 데이터 분석 결과를 이해해야 합니다. 예를 들어 운송 회사에 데이터 파이프라인을 구현한다고 가정해 보겠습니다. 데이터 분석이 진정으로 유용하기를 원한다면 데이터 과학자가 아닌 운전자, 관리자, 고객 지원 전문가 및 기타 사람들이 데이터에서 통찰력을 보고 어디서 왔는지 알 수 있어야 합니다. 데이터 분석은 찾고 이해하기 쉬울 때 유용하다는 것을 기억해야 합니다. 데이터 과학자만 이해하는 데이터 도구는 비즈니스 인텔리전스를 위한 도구로서 가치가 없습니다.