Kualitas dan keandalan data untuk cloud – Azure, AWS & GCP

Diterbitkan: 2022-07-01

Cawan suci "kepercayaan pada data" dari data ke perjalanan wawasan perusahaan tidak sepenuhnya baru. Sejak BI dan beban kerja analitik dipisahkan dari gudang data, jurang telah melebar.

Ada kesenjangan yang lebih besar antara apa yang dibutuhkan bisnis, operasi bisnis yang didukung oleh lanskap aplikasi TI, dan keandalan data yang terakumulasi di gudang data untuk tim bisnis.

Konsep & alat muncul untuk mengatasi kesenjangan dalam bentuk:

  • Rekor emas untuk setiap entitas bisnis yang diminati.
  • Membangun manajemen data master – menstandarisasi glosarium tentang bagaimana data dipahami, diatur, dan diatur, didukung oleh vendor seperti IBM, Informatica, dan Talend.
  • Ini berusaha untuk menjinakkan kekacauan dengan standardisasi dengan menciptakan glosarium bisnis dan banyak alat ETL untuk mendukung aturan bisnis untuk membantu bisnis memahami data.

Dalam kekacauan ini, solusi dan alat kualitas data terkubur jauh di dalam inisiatif MDM dan tata kelola data. Namun, ada dua tantangan – Yang pertama adalah melihat ke masa lalu sambil menanyakan apakah data dapat dipercaya.

Kedua, 'kualitas' diukur sehubungan dengan catatan emas dan data master – standarisasi, yang dengan sendirinya terus berkembang.

Keandalan data di cloud – Mengapa & apa yang berubah?

Insinyur data
Gambar: Pexels

Sementara hype data besar dimulai dengan Hadoop, masalah dengan volume, kecepatan, dan kebenaran ditangani, ini tetap merupakan permainan perusahaan.

Inovasi sejati dimulai dengan sistem MPP seperti Redshift pada AWS yang membangun cloud secara native, yang menjamin kinerja lebih tinggi untuk menangani kumpulan data besar dengan ekonomi yang baik dan antarmuka yang ramah SQL.

Ini, pada gilirannya, mendorong seperangkat alat penyerapan data seperti Fivetran, yang membuatnya lebih mudah untuk membawa data ke cloud.

Evolusi infrastruktur data dan ekosistem data modern di cloud

Saat ini, data disimpan di data lake pada sistem file cloud dan gudang data cloud, dan kami melihat ini tercermin dalam pertumbuhan vendor seperti Databricks dan Snowflake.

Impian menjadi berbasis data tampak lebih dekat dari sebelumnya.

Tim bisnis sangat ingin menganalisis dan mengubah data sesuai kebutuhan mereka, dan ekosistem alat BI berevolusi untuk menciptakan pandangan bisnis tentang data.

Aspek yang berubah di bawah dan di sepanjang evolusi ini adalah bahwa data dipindahkan dari lingkungan yang dikontrol dan diatur secara ketat ke wild west saat berbagai tim mengubah dan memanipulasi data di gudang cloud.

Evolusi tim data dan tim bisnis yang bergantung pada rekayasa data

Bukan hanya volume dan pertumbuhan data. Tim-tim yang haus data (konsumen data) juga bermunculan dalam bentuk tim BI, tim analitik, dan tim ilmu data.

Faktanya, di organisasi asli digital (yang murni dibangun di atas cloud), bahkan tim bisnis adalah tim data. Misalnya, pemasar menginginkan informasi waktu nyata tentang lalu lintas produk untuk mengoptimalkan kampanye.

Melayani tim khusus dan terdesentralisasi ini dengan persyaratan dan harapan mereka bukanlah tugas yang mudah.

Ekosistem data merespons dengan langkah cerdas, menandai awal rekayasa data dan pipeline sebagai unit dasar untuk mengemas transformasi khusus, penggabungan, agregasi, dll.

Kenyataannya adalah bahwa tim data terus-menerus berjuang dalam pertempuran saluran pipa yang rusak, mengubah skema, dan format, yang memengaruhi semua konsumen data seperti dasbor BI yang rusak dan prediksi sampah dari model ML.

Ini membutuhkan pemikiran baru untuk menciptakan kepercayaan pada data, sementara metrik dan pendekatan kualitas data tidak cukup.

Kami membutuhkan metrik keandalan data untuk memantau dan mengamati perubahan data dalam semua bentuk (misalnya, distribusi) dan bentuk (perubahan skema, perubahan format) dan yang melayani kebutuhan insinyur/analis BI dan ilmuwan data.

Faktor utama yang membantu adopsi keandalan data di antara perusahaan kecil di cloud

pengelola kata sandi icloud di windows
Gambar: KnowTechie

Saat perusahaan bergerak menuju alat swalayan untuk, intelijen bisnis (BI), analisis data, dasbor yang rusak, dan model pembelajaran mesin yang melayang bisa menyakitkan bagi perusahaan dari semua ukuran.

Faktanya, masalahnya ditekankan untuk perusahaan dengan tim data yang lebih kecil karena mereka menghabiskan banyak waktu untuk mengatasi masalah keandalan data, yang jika tidak dapat digunakan untuk membuka nilai data.

Ini juga membutuhkan cara yang lebih ekonomis yang memberikan efisiensi teknik berdasarkan arsitektur cloud-native, dioptimalkan dan menskalakan komputasi dan penyimpanan sesuai permintaan untuk pemantauan keandalan data yang akan dikirimkan.

Kualitas data tanpa kode untuk menyelamatkan tim bisnis

Sementara kemajuan signifikan telah dicapai dalam membawa data lebih dekat ke tim bisnis, masih ada kesenjangan yang belum terpecahkan dalam ekosistem data modern.

Alat saat ini membawa kemampuan, mereka juga mengekspos kompleksitas yang mendasari infrastruktur data langsung ke tim bisnis.

Sebagian besar perusahaan merasa kesulitan untuk memulai menggunakan cloud karena tidak banyak alat berkode rendah yang memudahkan untuk bekerja dengan data.

Alat-alat ini sering memiliki abstraksi yang baik dari kompleksitas data, tetapi mereka tidak selalu memiliki antarmuka pengguna yang selaras dengan tujuan dan tujuan spesifik pengguna.

Area ini sedang naik daun, dan kami melihat grup baru membawa kode tanpa kode/rendah di area keandalan data.

Alat baru untuk memantau data Infra, jalur pipa data & kualitas data+keandalan secara efektif

Spektrum alat yang luas membayangkan kembali masalah pemantauan ekosistem data modern di cloud.

Alat Data Dog & New Relic-like memonitor infrastruktur data di cloud. Alat lain seperti Unravel, memantau tumpukan data di cloud.

Ada juga alat yang muncul untuk memantau jalur pipa data di cloud. Dan terakhir, Qualdo-DRX adalah alat terdepan untuk memantau kualitas dan keandalan data, tersedia secara eksklusif dan dirancang ulang untuk semua cloud publik.

Punya pemikiran tentang ini? Beri tahu kami di bawah di komentar atau bawa diskusi ke Twitter atau Facebook kami.

Rekomendasi Editor:

  • Insinyur data dapat mewujudkan harapan konsumen
  • Bagaimana metodologi Agile berlaku untuk gudang data?
  • Ppts analitik data besar untuk menguasai teknik analitik tingkat lanjut
  • 4 hal yang perlu diketahui tentang solusi perusahaan yang mendukung cloud