Data Lake กับ Data Warehouse: คุณทราบความแตกต่างที่สำคัญ 4 ประการเหล่านี้หรือไม่?
เผยแพร่แล้ว: 2023-03-27บริษัทต่าง ๆ กำลังเห็นการเติบโตของข้อมูล ซึ่งเรียกร้องให้มีโครงสร้างพื้นฐานใหม่และความสามารถในการจัดการข้อมูล ตามที่เป็นอยู่ องค์กรส่วนใหญ่ใช้งบประมาณด้านไอทีมากกว่า 30% ในการจัดเก็บข้อมูล การสำรอง และการกู้คืนจากความเสียหาย ตามการวิจัยในปี 2565 และสิ่งนี้ครอบคลุมทั้งชุดข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง
แนวคิดที่สำคัญสองประการที่เกี่ยวข้องกับการดำเนินการข้อมูลคือทะเลสาบและคลังสินค้า พวกเขามีบางสิ่งที่เหมือนกัน ตัวอย่างเช่น ทั้งสองอย่างใช้สำหรับจัดเก็บข้อมูล และทั้งสองอย่างทำงานร่วมกันได้กับคลาวด์ แต่การรู้ความแตกต่างระหว่าง Data Lake และคลังข้อมูลสามารถช่วยคุณเพิ่มประสิทธิภาพการใช้งานได้ ตัวอย่างเช่น Data Lake เหมาะสำหรับข้อมูลที่ไม่มีโครงสร้าง ("ขนาดใหญ่") มากกว่าคลังสินค้า
ก่อนที่เราจะพูดถึงเรื่องนี้และข้อแตกต่างอื่นๆ ระหว่าง Data Lake และ Data Warehouse เรามาคุยกันสั้นๆ ในแต่ละแนวคิดกันก่อน
Data Lake คืออะไร?
Data Lake คือศูนย์จัดเก็บข้อมูลขนาดใหญ่ที่ปรับขนาดได้จำนวนมาก ซึ่งมีข้อมูลที่ยังไม่ได้ประมวลผลจำนวนมากจนกว่าจะจำเป็นสำหรับการใช้งาน
ไม่มีข้อจำกัดเกี่ยวกับปริมาณหรือขนาดของบัญชีหรือไฟล์ และไม่มีกรณีการใช้งานที่ระบุ ดังนั้นจึงอาจรวมถึงข้อมูลประเภทใดก็ได้ ข้อมูลอาจไม่ผ่านการประมวลผล กึ่งโครงสร้าง หรือมีโครงสร้าง และอาจมาจากแหล่งที่มาที่หลากหลาย เมื่อใดก็ตามที่จำเป็น คุณสามารถดึงข้อมูลจากที่จัดเก็บข้อมูลดิบได้
เมื่อคุณต้องการรวบรวมและจัดเก็บข้อมูลจำนวนมากโดยไม่ต้องประมวลผลหรือวิเคราะห์ในขณะนั้น คุณสามารถใช้โมเดล Data Lake ได้ นักวิทยาศาสตร์ข้อมูลหรือวิศวกรคือผู้ใช้ปลายทางของดาต้าเลค
การรวมศูนย์ของแหล่งข้อมูลหลายแห่งเป็นประโยชน์หลักของดาต้าเลค แต่คุณควรจำข้อเสียบางประการไว้ด้วย ความปลอดภัยของข้อมูลรวมถึงการจัดการการเข้าถึงถือเป็นความเสี่ยงสูงสุดสำหรับ Data Lake เนื่องจากข้อกำหนดที่เป็นไปได้สำหรับความเป็นส่วนตัว ข้อมูลที่ถูกทิ้งลงในทะเลสาบโดยไม่มีการกำกับดูแลใด ๆ จึงเป็นภัยคุกคาม
นอกจากนี้ อาจมีปัญหาเกี่ยวกับคุณภาพของข้อมูล หากปราศจากการพิจารณาและการดูแลที่เพียงพอ Data Lake อาจกลายเป็นกองข้อมูลที่ไม่สามารถใช้งานได้และไม่มีโครงสร้างโดยไม่มีการระบุหรือจัดทำดัชนีที่ชัดเจน
คลังข้อมูลคืออะไร?
ไม่เหมือน data lake คลังข้อมูลเป็นข้อมูลองค์กรที่มีให้เลือกมากมายทั้งจากแหล่งปฏิบัติการและแหล่งภายนอก ข้อมูลได้รับการจัดโครงสร้าง กรอง และจัดเรียงเพื่อวัตถุประสงค์เฉพาะแล้ว
คลังข้อมูลมักใช้เพื่ออำนวยความสะดวกในการแลกเปลี่ยนข้อมูลระหว่างฐานข้อมูลเฉพาะแผนกในองค์กรขนาดกลางและขนาดใหญ่ พวกเขาอาจเก็บข้อมูลเกี่ยวกับผลิตภัณฑ์ คำสั่งซื้อ ลูกค้า สินค้าคงคลัง และพนักงาน ท่ามกลางองค์ประกอบอื่นๆ ผู้ประกอบการและผู้บริโภคทางธุรกิจคือผู้ใช้ปลายทางของคลังข้อมูล
สำหรับข้อมูลทางธุรกิจที่เป็นประโยชน์ บริษัทส่วนใหญ่ต้องรวบรวมข้อมูลจากระบบย่อยจำนวนมากที่พัฒนาบนแพลตฟอร์มที่แตกต่างกัน ปัญหานี้แก้ไขได้ด้วยคลังข้อมูล ซึ่งจะรวมข้อมูลทั้งหมดขององค์กรไว้ในที่เก็บข้อมูลส่วนกลางและอนุญาตให้เข้าถึงได้จากไซต์เดียว
มีข้อเสียบางประการที่ต้องพิจารณาในขณะที่ใช้คลังข้อมูล มันต้องการการล้างข้อมูล การแปลง และการรวมข้อมูลอย่างต่อเนื่อง เนื่องจากเป้าหมายจำนวนมาก (บางครั้งก็ขัดแย้งกัน) ที่บริษัทพยายามทำให้สำเร็จ การดำเนินการอาจเต็มไปด้วยความยากลำบาก
นอกจากนี้ คลังข้อมูลอาจต้องมีการกำหนดค่าไอทีและระบบปฏิบัติการของคุณใหม่
อย่างที่คุณเห็น data lake และ data warehouse มีข้อดีและข้อเสียที่แตกต่างกัน สิ่งสำคัญคือต้องทราบความแตกต่างระหว่างสองระบบเพื่อใช้แต่ละระบบอย่างเหมาะสม
Data Lakes รองรับข้อมูลที่ไม่มีโครงสร้างแต่คลังสินค้าไม่รองรับ
นี่อาจเป็นข้อแตกต่างที่ใหญ่ที่สุดระหว่าง Data Lake และ Data Warehouse
ใน Data Lake ข้อมูลดิบจะถูกจัดเก็บในรูปแบบดั้งเดิม นอกเหนือจากข้อมูลกึ่งโครงสร้างและไม่มีโครงสร้าง เช่น บันทึกอุปกรณ์ Internet of Things (IoT) (ข้อความ) ภาพถ่าย (.png,.jpg) วิดีโอ (.mp4,.wav เป็นต้น) และรูปแบบที่มีโครงสร้างอื่นๆ ธุรกรรม ข้อมูลที่ได้รับผ่านการจัดการลูกค้าสัมพันธ์ (CRM) และระบบการวางแผนทรัพยากรองค์กร (ERP) สามารถรวมเข้าด้วยกัน เช่นเดียวกับข้อมูลขนาดใหญ่ เช่น การพูดคุยทางโซเชียลมีเดีย
ในทางตรงกันข้าม คลังข้อมูลอาจจัดเก็บข้อความ ตัวเลข และข้อมูลในรูปแบบอื่นๆ ที่เข้าถึงได้โดยใช้การสืบค้นด้วยภาษาคิวรีที่มีโครงสร้าง (SQL) สิ่งนี้บ่งชี้ว่าประเภทของข้อมูลที่จัดเก็บไว้ในคลังเทียบเท่ากับที่พบในฐานข้อมูลเชิงสัมพันธ์
Data Lake อนุญาตให้จัดเก็บข้อมูลที่ไม่มีการรวบรวมกัน กึ่งโครงสร้าง และโครงสร้าง ในขณะที่ข้อมูลส่วนใหญ่ที่บันทึกไว้ในคลังข้อมูลมีโครงสร้าง แต่ชุดข้อมูลบางอย่าง เช่น Snowflake (ซึ่งมีประเภทข้อมูลแบบตัวแปรและแบบออบเจกต์) ก็สามารถจัดเก็บข้อมูลแบบกึ่งโครงสร้างได้เช่นกัน
คลังข้อมูลอาจจัดเก็บข้อมูลจากทั้งทรัพยากรที่ไม่มีโครงสร้างและกึ่งโครงสร้าง แต่หลังจากได้รับการเปลี่ยนแปลงแล้วเท่านั้น
( อ่านเพิ่มเติม : ความเป็นส่วนตัวของข้อมูลเทียบกับความปลอดภัยของข้อมูล)
Data Lake ใช้ Schema-on-Read ในขณะที่ Data Warehouse ใช้ Schema-on-Write
สคีมาอธิบายการจัดระเบียบข้อมูลอย่างเป็นทางการ Data Lake ได้รับประโยชน์จาก schema-on-read ดังนั้น แต่ละครั้งที่เราได้รับข้อมูล รูปแบบและโครงสร้างจะถูกระบุ แต่ไม่มีการตั้งค่ากฎ big-O (ลำดับของฟังก์ชัน) ก่อนการสืบค้น data lake
ตรงกันข้ามกับคลังสินค้า Lakes ไม่ใช้ schema-on-write ซึ่งหมายความว่าต้องระบุโครงสร้างและการจัดระเบียบของข้อมูลก่อนที่จะถ่ายโอนไปยังคลังข้อมูล
ในทางตรงกันข้าม สถาปนิกข้อมูลหรือผู้ดำเนินการต้องลงทุนอย่างมากในกรอบข้อมูลสำหรับคลังข้อมูล นี่เป็นเพราะความจริงที่ว่าโครงสร้างข้อมูลต้องง่ายต่อการใช้งานและรายงานสำหรับนักวิเคราะห์ข้อมูล ซึ่งครอบคลุมทั้งตารางปกติหรือดีนอร์มัลไลซ์ ตลอดจนสคีมารูปดาวและเกล็ดหิมะ เนื่องจากต้องเตรียมโมเดลข้อมูลสำหรับการวิจัยและข่าวกรองธุรกิจ จึงใช้ schema-on-write
ความแตกต่างระหว่าง Data Lake และ Data Warehouse นี้เกิดจากข้อเท็จจริงสำคัญประการหนึ่ง: Lakes เก็บข้อมูลทั้งหมดที่องค์กรต้องการ อาจใช้ในภายหลัง และอาจไม่เคยใช้เลย ในทางกลับกัน คลังข้อมูลจะเลือกวัสดุที่จะจัดเก็บด้วยความระมัดระวังอย่างยิ่งก่อนที่จะดูดซับ เนื่องจากจะต้องมีการเตรียมการที่ดีกว่าสำหรับการใช้งาน
คลังข้อมูลใช้เวิร์กโฟลว์ ETL และมักจะมีราคาแพงกว่า
วิธีแยก แปลง และโหลด (ETL) ใช้เพื่อถ่ายโอนข้อมูลไปยังคลังสินค้า นี่คือการดำเนินการ:
- การรับข้อมูลจากแหล่งข้อมูลดิบ
- ทำลายล้างและตีความข้อมูล
- การเพิ่มเนื้อหาลงในที่เก็บข้อมูลการดำเนินงาน
ในทางตรงกันข้าม Data Lake ใช้วิธี ELT หากจำเป็น นักวิเคราะห์ข้อมูลหรือสถาปนิกจะแก้ไขข้อมูลหลังการวิเคราะห์ ความแตกต่างระหว่างดาต้าเลคและดาต้าแวร์เฮาส์มีส่วนทำให้เกิดปัจจัยสำคัญอีกประการหนึ่ง: ดาต้าเลคสามารถหลีกหนีจากการใช้เซิร์ฟเวอร์สินค้าโภคภัณฑ์ที่ปรับขนาดได้และราคาไม่แพง เช่นเดียวกับพื้นที่จัดเก็บออบเจกต์ที่ใช้ระบบคลาวด์ซึ่งมีระดับเฉพาะที่มีต้นทุนต่ำ สิ่งนี้จะลดราคาต่อกิกะไบต์ของข้อมูลที่จัดเก็บ
ในทางตรงกันข้าม คลังข้อมูลมีราคาแพงกว่ามากเนื่องจากทรัพยากรการประมวลผลเพิ่มเติมที่จำเป็นสำหรับการรันแบบสอบถามเชิงวิเคราะห์ รวมถึงค่าใช้จ่ายในการจัดเก็บ การใช้ ETL แทน ELT ทำให้มีค่าใช้จ่ายเพิ่มขึ้น
Data Lake ใช้งานได้ง่ายกว่า แต่ข้อมูลในคลังสินค้าพร้อมใช้งานมากกว่า
คำว่า "ใช้งานง่าย" หมายถึงความสามารถในการใช้งานโดยรวมของที่เก็บข้อมูล ไม่ใช่ข้อมูลที่จัดเก็บไว้ในนั้น เนื่องจากสถาปัตยกรรมของ Data Lake ไม่มีโครงสร้างที่แน่นอน จึงง่ายต่อการเข้าถึงและเปลี่ยนแปลง นอกจากนี้ เนื่องจาก Data Lake ไม่มีข้อจำกัด ผู้ใช้จึงอาจแก้ไขข้อมูลได้อย่างรวดเร็ว ตามคำนิยาม คลังข้อมูลมีโครงสร้างมากกว่ามาก
การประมวลผลและการจัดระเบียบข้อมูลในคลังข้อมูลช่วยให้ตีความและใช้งานข้อมูลได้ง่ายขึ้น ข้อมูลแต่ละชิ้นที่บันทึกไว้ในคลังสินค้าได้รับการดำเนินการเพื่อวัตถุประสงค์เฉพาะ เนื่องจากเฉพาะข้อมูลที่กรองและประมวลผลแล้วเท่านั้นที่จัดเก็บไว้ที่นั่น กล่าวอีกนัยหนึ่ง พื้นที่จะไม่เสียไปกับข้อมูลที่อาจไม่เคยใช้งาน และข้อมูลทั้งหมดก็พร้อมใช้งาน
อย่างไรก็ตาม ข้อจำกัดด้านโครงสร้างทำให้การปรับเปลี่ยนคลังข้อมูลทำได้ยากและมีค่าใช้จ่ายสูง
อย่างที่คุณเห็น ทั้ง data lake และ data warehouse ให้ประโยชน์ที่สำคัญสำหรับธุรกิจของคุณ หากคุณจัดการกับข้อมูลขนาดใหญ่เป็นประจำ ทะเลสาบเป็นสิ่งที่ต้องมี ในการเปรียบเทียบ คลังสินค้ามีความสำคัญต่อ Power BI และการวิเคราะห์ และบ่อยครั้งที่ทั้งสองถูกใช้คู่กันเพื่อผลลัพธ์ที่ดีที่สุด