جودة البيانات وموثوقيتها للسحابة - Azure و AWS و GCP

نشرت: 2022-07-01

إن الكأس المقدسة المتمثلة في "الثقة في البيانات" من البيانات إلى رحلة البصيرة للمؤسسات ليست جديدة تمامًا. منذ أن تم فصل ذكاء الأعمال وأحمال العمل التحليلية عن مستودعات البيانات ، اتسعت الهوة.

هناك فجوة أكبر بين احتياجات العمل والعمليات التجارية التي يدعمها مشهد تطبيقات تكنولوجيا المعلومات وموثوقية البيانات المتراكمة في مستودعات البيانات لفرق العمل.

ظهرت المفاهيم والأدوات لمعالجة الفجوة في شكل:

  • السجل الذهبي لكل كيان تجاري محل اهتمام.
  • وبناءً عليه ، كانت إدارة البيانات الرئيسية - توحيد المسرد الخاص بكيفية فهم البيانات وتنظيمها وإدارتها ، بدعم من البائعين مثل IBM و Informatica و Talend.
  • حاولت ترويض الفوضى من خلال التوحيد القياسي من خلال اختراع مسارد للأعمال وأطنان من أدوات ETL لدعم قواعد العمل لمساعدة الشركات على فهم البيانات.

في هذه الفوضى ، تم دفن حلول وأدوات جودة البيانات بعمق في MDM ومبادرات إدارة البيانات. ومع ذلك ، لا يزال هناك تحديان - الأول هو النظر إلى الماضي مع التساؤل عما إذا كانت البيانات موثوقة.

ثانيًا ، تم قياس "الجودة" فيما يتعلق بالسجل الذهبي والبيانات الرئيسية - التوحيد القياسي ، والذي كان بحد ذاته يتطور باستمرار.

موثوقية البيانات على السحابة - لماذا وما الذي تغير؟

مهندسو البيانات
الصورة: Pexels

بينما بدأ الضجيج الضخم للبيانات الضخمة مع Hadoop ، تمت معالجة المخاوف المتعلقة بالحجم والسرعة والصدق ، ظلت هذه لعبة مؤسسية.

بدأ الابتكار الحقيقي مع أنظمة MPP مثل Redshift على سحابة AWS التي تم إنشاؤها محليًا ، مما يضمن أداءً أعلى للتعامل مع مجموعات البيانات الضخمة مع اقتصاديات جيدة وواجهة متوافقة مع SQL.

هذا ، بدوره ، حفز مجموعة من أدوات استيعاب البيانات مثل Fivetran ، والتي سهلت جلب البيانات إلى السحابة.

تطور البنية التحتية للبيانات والنظام البيئي الحديث للبيانات على السحابة

اليوم ، يتم تخزين البيانات في بحيرات البيانات على أنظمة الملفات السحابية ومستودعات البيانات السحابية ، ونرى ذلك ينعكس في نمو البائعين مثل Databricks و Snowflake.

بدا حلم الاعتماد على البيانات أقرب بكثير من ذي قبل.

كانت فرق العمل جائعة لتحليل البيانات وتحويلها إلى احتياجاتهم ، وتطور النظام البيئي لأداة BI لإنشاء عرض الأعمال على البيانات.

الوجه الذي تغير تحت هذا التطور وعلى طوله هو أن البيانات تنتقل من بيئة خاضعة للرقابة الصارمة ومحكومة إلى الغرب المتوحش حيث تقوم فرق مختلفة بتحويل البيانات ومعالجتها في مستودعات السحابة.

تطور فرق البيانات وفرق الأعمال المعتمدة على هندسة البيانات

لا يتعلق الأمر فقط بحجم ونمو البيانات. كما انفجرت الفرق المتعطشة للبيانات (مستهلكي البيانات) في شكل فرق ذكاء الأعمال والفرق التحليلية وفرق علوم البيانات.

في الواقع ، في المؤسسات الرقمية الأصلية (التي تم إنشاؤها فقط على السحابة) ، حتى فرق العمل هي فرق بيانات. على سبيل المثال ، يريد أحد المسوقين الحصول على معلومات في الوقت الفعلي عن حركة مرور المنتج لتحسين الحملات.

إن خدمة هذه الفرق المتخصصة واللامركزية بمتطلباتها وتوقعاتها ليست مهمة سهلة.

استجاب النظام البيئي للبيانات بحركة ذكية ، مما يشير إلى بداية هندسة البيانات وخطوط الأنابيب كوحدة أساسية لحزم التحويلات المتخصصة والصلات والتجميعات ، إلخ.

الحقيقة هي أن فرق البيانات تقاتل باستمرار معركة خطوط الأنابيب المعطلة ، وتغيير المخططات ، والتنسيقات ، التي تؤثر على جميع مستهلكي البيانات مثل لوحات معلومات BI التالفة والتنبؤات المهملة من نماذج ML.

هذا يستدعي تفكيرًا جديدًا حول خلق الثقة في البيانات ، ومقاييس ومناهج جودة البيانات السابقة غير كافية.

نحتاج إلى مقاييس موثوقية البيانات لرصد ومراقبة التغييرات في البيانات في جميع الأشكال (على سبيل المثال ، التوزيعات) والنماذج (تغييرات المخطط ، تغييرات التنسيق) وتلك التي تخدم احتياجات مهندسي / محللي ذكاء الأعمال وعلماء البيانات.

العوامل الرئيسية التي تساعد على اعتماد موثوقية البيانات بين المؤسسات الصغيرة على السحابة

iCloud Password Manager على الويندوز
الصورة: KnowTechie

نظرًا لأن المؤسسات تتجه نحو أدوات الخدمة الذاتية ، فإن ذكاء الأعمال (BI) ، وتحليل البيانات ، ولوحات المعلومات المعطلة ، ونماذج التعلم الآلي الانجراف يمكن أن تكون مؤلمة للمؤسسات من جميع الأحجام.

في الواقع ، تتفاقم المشكلة بالنسبة للمؤسسات التي لديها فرق بيانات أصغر لأنها تقضي الكثير من مشكلات موثوقية البيانات التي تقاوم الوقت ، والتي يمكن استخدامها لإلغاء تأمين قيمة البيانات.

يستدعي هذا أيضًا طريقة أكثر اقتصادا توفر كفاءات هندسية استنادًا إلى بنية السحابة الأصلية ، وتحسين وتوسيع نطاق الحوسبة والتخزين عند الطلب من أجل توفير مراقبة موثوقية البيانات.

جودة البيانات بدون كود لإنقاذ فرق العمل

بينما تم إحراز تقدم كبير في تقريب البيانات من فرق العمل ، لا تزال هناك فجوة لم يتم حلها في النظام البيئي للبيانات الحديث.

توفر الأدوات الحالية القدرة ، كما أنها تعرض التعقيد الأساسي للبنية التحتية للبيانات مباشرة لفرق العمل.

تجد معظم المؤسسات صعوبة في البدء في استخدام السحابة نظرًا لعدم وجود العديد من أدوات التعليمات البرمجية المنخفضة التي تجعل من السهل التعامل مع البيانات.

غالبًا ما تحتوي هذه الأدوات على تجريد جيد لتعقيد البيانات ، ولكنها لا تحتوي دائمًا على واجهة مستخدم تتوافق مع أهداف المستخدمين وأغراضهم المحددة.

هذه المنطقة تزداد قوة ، ونشهد مجموعات جديدة تجلب الرمز no-code / low في منطقة موثوقية البيانات.

أدوات جديدة لمراقبة البنية التحتية للبيانات وخطوط أنابيب البيانات وجودة البيانات + الموثوقية بشكل فعال

تعمل مجموعة واسعة من الأدوات على إعادة تخيل مشكلة مراقبة أنظمة البيانات الحديثة على السحابة.

تقوم أدوات Data Dog & New Relic-like بمراقبة البنية التحتية للبيانات على السحابة. أدوات أخرى مثل Unravel ، تراقب مكدسات البيانات على السحابة.

هناك أيضًا أدوات ناشئة لمراقبة خطوط البيانات على السحابة. وأخيرًا ، تعد Qualdo-DRX أداة رائدة لمراقبة جودة البيانات وموثوقيتها ، وهي متاحة حصريًا ومعاد تصورها لجميع السحابات العامة.

هل لديك أي أفكار حول هذا؟ أخبرنا أدناه في التعليقات أو انقل المناقشة إلى Twitter أو Facebook.

توصيات المحررين:

  • يمكن لمهندسي البيانات تحقيق توقعات المستهلك في الحياة
  • كيف يتم تطبيق منهجية Agile على مستودعات البيانات؟
  • تحليلات البيانات الكبيرة Ppts لإتقان تقنية التحليلات المتقدمة
  • 4 أشياء يجب معرفتها حول حلول المؤسسات التي تدعم السحابة