คุณภาพและความน่าเชื่อถือของข้อมูลสำหรับระบบคลาวด์ – Azure, AWS & GCP

เผยแพร่แล้ว: 2022-07-01

จอกศักดิ์สิทธิ์ของ "ความไว้วางใจในข้อมูล" จากข้อมูลสู่การเดินทางอย่างชาญฉลาดขององค์กรนั้นไม่ใช่เรื่องใหม่ทั้งหมด เนื่องจากปริมาณงาน BI และการวิเคราะห์แยกออกจากคลังข้อมูล ช่องว่างจึงกว้างขึ้น

มีช่องว่างขนาดใหญ่กว่าระหว่างความต้องการทางธุรกิจ การดำเนินธุรกิจที่ได้รับการสนับสนุนจากภูมิทัศน์ของแอปพลิเคชันไอที และความน่าเชื่อถือของข้อมูลที่สะสมในคลังข้อมูลสำหรับทีมธุรกิจ

แนวคิดและเครื่องมือที่เกิดขึ้นเพื่อแก้ไขช่องว่างในรูปแบบของ:

  • สถิติทองคำสำหรับทุกองค์กรธุรกิจที่น่าสนใจ
  • ต่อยอดจากสิ่งนี้คือการจัดการข้อมูลหลัก – การกำหนดมาตรฐานของอภิธานศัพท์เกี่ยวกับวิธีการทำความเข้าใจ จัดระเบียบ และควบคุมข้อมูล โดยได้รับการสนับสนุนจากผู้ขายเช่น IBM, Informatica และ Talend
  • มันพยายามที่จะควบคุมความโกลาหลด้วยการสร้างมาตรฐานโดยการประดิษฐ์อภิธานศัพท์ทางธุรกิจและเครื่องมือ ETL มากมายเพื่อสนับสนุนกฎเกณฑ์ทางธุรกิจเพื่อช่วยให้ธุรกิจเข้าใจข้อมูล

ในความโกลาหลนี้ โซลูชันและเครื่องมือคุณภาพข้อมูลถูกฝังลึกใน MDM และการริเริ่มการกำกับดูแลข้อมูล ยังคงมีความท้าทายอยู่สองประการ – อย่างแรกคือการมองไปในอดีตโดยถามว่าข้อมูลเชื่อถือได้หรือไม่

ประการที่สอง 'คุณภาพ' ถูกวัดด้วยความเคารพต่อบันทึกสีทองและข้อมูลหลัก - มาตรฐานซึ่งมีการพัฒนาอย่างต่อเนื่อง

ความน่าเชื่อถือของข้อมูลบนคลาวด์ – เหตุใดและสิ่งที่เปลี่ยนแปลงไป

วิศวกรข้อมูล
ภาพ: Pexels

ในขณะที่โฆษณาบิ๊กดาต้าเริ่มต้นด้วย Hadoop ความกังวลเกี่ยวกับปริมาณ ความเร็ว และความเป็นจริงได้รับการแก้ไขแล้ว แต่สิ่งนี้ยังคงเป็นปัญหาขององค์กร

นวัตกรรมที่แท้จริงเริ่มต้นด้วยระบบ MPP เช่น Redshift บน AWS ที่สร้างขึ้นบนคลาวด์แบบเนทีฟ ซึ่งรับประกันประสิทธิภาพที่สูงขึ้นในการจัดการชุดข้อมูลขนาดใหญ่ด้วยความคุ้มค่าและอินเทอร์เฟซที่เป็นมิตรกับ SQL

ในทางกลับกัน ได้กระตุ้นชุดเครื่องมือการนำเข้าข้อมูล เช่น Fivetran ซึ่งทำให้ง่ายต่อการนำข้อมูลไปยังระบบคลาวด์

วิวัฒนาการของโครงสร้างพื้นฐานข้อมูลและระบบนิเวศข้อมูลที่ทันสมัยบนคลาวด์

ทุกวันนี้ ข้อมูลถูกจัดเก็บใน Data Lake บนระบบไฟล์บนคลาวด์และคลังข้อมูลบนคลาวด์ และเราเห็นว่าสิ่งนี้สะท้อนให้เห็นในการเติบโตของผู้ขาย เช่น Databricks และ Snowflake

ความฝันที่จะขับเคลื่อนด้วยข้อมูลนั้นดูใกล้กว่าเมื่อก่อนมาก

ทีมธุรกิจต่างกระหายที่จะวิเคราะห์และแปลงข้อมูลตามความต้องการของพวกเขา และระบบนิเวศของเครื่องมือ BI ก็พัฒนาขึ้นเพื่อสร้างมุมมองทางธุรกิจเกี่ยวกับข้อมูล

แง่มุมที่เปลี่ยนแปลงด้านล่างและตามวิวัฒนาการนี้คือข้อมูลที่ย้ายจากสภาพแวดล้อมที่มีการควบคุมและควบคุมอย่างเข้มงวดไปยังป่าตะวันตกเนื่องจากทีมต่างๆ กำลังแปลงและจัดการข้อมูลในคลังข้อมูลบนคลาวด์

วิวัฒนาการของทีมข้อมูลและทีมธุรกิจที่ขึ้นอยู่กับวิศวกรรมข้อมูล

ไม่ใช่แค่ปริมาณและการเติบโตของข้อมูลเท่านั้น ทีมที่กระหายข้อมูล (ผู้บริโภคข้อมูล) ก็ระเบิดในรูปแบบของทีม BI ทีมวิเคราะห์ และทีมวิทยาศาสตร์ข้อมูล

ในความเป็นจริง ในองค์กรดิจิทัลดั้งเดิม (ซึ่งสร้างขึ้นบนคลาวด์ล้วนๆ) แม้แต่ทีมธุรกิจก็ยังเป็นทีมข้อมูล เช่น นักการตลาดต้องการข้อมูลแบบเรียลไทม์เกี่ยวกับการเข้าชมผลิตภัณฑ์เพื่อเพิ่มประสิทธิภาพแคมเปญ

การให้บริการทีมผู้เชี่ยวชาญและกระจายอำนาจด้วยความต้องการและความคาดหวังไม่ใช่เรื่องง่าย

ระบบนิเวศข้อมูลตอบสนองด้วยการเคลื่อนไหวที่ชาญฉลาด โดยถือเป็นจุดเริ่มต้นของวิศวกรรมข้อมูลและไปป์ไลน์เป็นหน่วยพื้นฐานในการจัดแพ็กเกจการแปลงเฉพาะ การรวม การรวม ฯลฯ

ความจริงก็คือทีมข้อมูลกำลังต่อสู้กับการต่อสู้ของไปป์ไลน์ที่เสียหาย การเปลี่ยนแปลงสคีมา และรูปแบบอย่างต่อเนื่อง ซึ่งส่งผลต่อผู้บริโภคข้อมูลทั้งหมด เช่น แดชบอร์ด BI ที่เสียหาย และการคาดการณ์ขยะจากโมเดล ML

สิ่งนี้เรียกร้องให้มีความคิดใหม่เกี่ยวกับการสร้างความไว้วางใจในข้อมูล ในขณะที่ตัวชี้วัดและแนวทางคุณภาพข้อมูลยังไม่เพียงพอ

เราต้องการตัววัดความน่าเชื่อถือของข้อมูลเพื่อตรวจสอบและสังเกตการเปลี่ยนแปลงของข้อมูลในทุกรูปแบบ (เช่น การแจกแจง) และรูปแบบ (การเปลี่ยนแปลงสคีมา การเปลี่ยนแปลงรูปแบบ) และรูปแบบที่ตอบสนองความต้องการของวิศวกร/นักวิเคราะห์ BI และนักวิทยาศาสตร์ข้อมูล

ปัจจัยสำคัญที่เอื้อต่อการยอมรับความน่าเชื่อถือของข้อมูลในองค์กรขนาดเล็กบนคลาวด์

ตัวจัดการรหัสผ่าน icloud บน windows
ภาพ: KnowTechie

ในขณะที่องค์กรต่างๆ มุ่งสู่เครื่องมือแบบบริการตนเองสำหรับ Business Intelligence (BI) การวิเคราะห์ข้อมูล แดชบอร์ดที่ใช้งานไม่ได้ และโมเดลการเรียนรู้ของเครื่องดริฟท์อาจสร้างความเจ็บปวดให้กับองค์กรทุกขนาด

อันที่จริง ปัญหาดังกล่าวได้รับการเน้นย้ำสำหรับองค์กรที่มีทีมข้อมูลขนาดเล็ก เนื่องจากพวกเขาใช้เวลาจำนวนมากในการต่อสู้กับปัญหาความน่าเชื่อถือของข้อมูล ซึ่งอาจนำไปใช้เพื่อปลดล็อกคุณค่าของข้อมูลได้

นอกจากนี้ยังเรียกร้องให้มีวิธีการที่ประหยัดกว่าซึ่งมอบประสิทธิภาพทางวิศวกรรมตามสถาปัตยกรรมแบบคลาวด์เนทีฟ เพิ่มประสิทธิภาพและปรับขนาดการประมวลผลตามต้องการและการจัดเก็บข้อมูลสำหรับการตรวจสอบความน่าเชื่อถือของข้อมูลที่จะส่งมอบ

ไม่มีรหัสคุณภาพข้อมูลเพื่อช่วยทีมธุรกิจ

ในขณะที่มีความคืบหน้าอย่างมากในการนำข้อมูลเข้ามาใกล้ทีมธุรกิจมากขึ้น แต่ก็ยังมีช่องว่างที่ยังไม่ได้รับการแก้ไขในระบบนิเวศข้อมูลสมัยใหม่

เครื่องมือปัจจุบันนำความสามารถมาใช้ พวกเขายังเปิดเผยความซับซ้อนพื้นฐานของโครงสร้างพื้นฐานข้อมูลให้กับทีมธุรกิจโดยตรง

องค์กรส่วนใหญ่พบว่าการเริ่มต้นใช้งานระบบคลาวด์เป็นเรื่องที่ท้าทาย เนื่องจากไม่มีเครื่องมือแบบ low-code จำนวนมากที่ช่วยให้ทำงานกับข้อมูลได้ง่าย

เครื่องมือเหล่านี้มักมีนามธรรมที่ดีของความซับซ้อนของข้อมูล แต่ไม่มีอินเทอร์เฟซผู้ใช้ที่สอดคล้องกับเป้าหมายและวัตถุประสงค์เฉพาะของผู้ใช้เสมอไป

พื้นที่นี้กำลังได้รับความนิยม และเราเห็นกลุ่มใหม่ๆ นำ no-code/low code เข้ามาในพื้นที่ความน่าเชื่อถือของข้อมูล

เครื่องมือใหม่ในการตรวจสอบข้อมูล Infra, ไปป์ไลน์ข้อมูล & คุณภาพข้อมูล+ความน่าเชื่อถือ

เครื่องมือในวงกว้างกำลังจินตนาการถึงปัญหาของการตรวจสอบระบบนิเวศข้อมูลสมัยใหม่บนคลาวด์

Data Dog & เครื่องมือเหมือน Relic ใหม่จะคอยตรวจสอบโครงสร้างพื้นฐานของข้อมูลบนคลาวด์ เครื่องมืออื่นๆ เช่น Unravel ตรวจสอบกองข้อมูลบนคลาวด์

นอกจากนี้ยังมีเครื่องมือต่างๆ ที่ปรากฏขึ้นเพื่อตรวจสอบท่อส่งข้อมูลบนคลาวด์ และสุดท้าย Qualdo-DRX เป็นเครื่องมือชั้นนำในการตรวจสอบคุณภาพและความน่าเชื่อถือของข้อมูล ซึ่งมีให้ใช้งานเฉพาะและคิดใหม่ได้สำหรับระบบคลาวด์สาธารณะทั้งหมด

มีความคิดเกี่ยวกับเรื่องนี้หรือไม่? แจ้งให้เราทราบด้านล่างในความคิดเห็นหรือดำเนินการสนทนาไปที่ Twitter หรือ Facebook ของเรา

คำแนะนำของบรรณาธิการ:

  • วิศวกรข้อมูลสามารถทำให้ความคาดหวังของผู้บริโภคเป็นจริงได้
  • วิธีการแบบ Agile นำไปใช้กับคลังข้อมูลอย่างไร
  • การวิเคราะห์ข้อมูลขนาดใหญ่ Ppts เพื่อเชี่ยวชาญเทคนิคการวิเคราะห์ขั้นสูง
  • 4 สิ่งที่ต้องรู้เกี่ยวกับโซลูชันองค์กรที่ใช้ระบบคลาวด์