Bulut için veri kalitesi ve güvenilirliği – Azure, AWS ve GCP

Yayınlanan: 2022-07-01

İşletmelerin veriden içgörü yolculuğuna uzanan kutsal “veriye güvenme” kâsesi tamamen yeni değil. BI ve analitik iş yükleri veri ambarlarından ayrıldığından, uçurum genişledi.

İş ihtiyaçları, BT uygulama ortamı tarafından desteklenen iş operasyonları ve iş ekipleri için veri ambarlarında biriken verilerin güvenilirliği arasında daha da büyük bir boşluk var.

Boşluğu ele almak için şu şekillerde konseptler ve araçlar ortaya çıktı:

  • İlgilenilen her ticari işletme için altın rekor.
  • Bunun üzerine, IBM, Informatica ve Talend gibi satıcılar tarafından desteklenen, verilerin nasıl anlaşıldığına, düzenlendiğine ve yönetildiğine ilişkin sözlüğü standartlaştıran ana veri yönetimi vardı.
  • İşletmelerin verileri anlamlandırmasına yardımcı olmak için iş kurallarını desteklemek için iş sözlükleri ve tonlarca ETL aracı icat ederek standardizasyon yoluyla kaosu evcilleştirmeye çalıştı.

Bu kargaşada, veri kalitesi çözümleri ve araçları MDM ve veri yönetişimi girişimlerinin derinliklerine gömüldü. Yine de iki zorluk vardı - Birincisi, verilerin güvenilir olup olmadığını sorarken geçmişe bakmaktı.

İkinci olarak, 'kalite' altın rekor ve ana verilere göre ölçülmüştür – sürekli gelişen standardizasyon.

Bulutta veri güvenilirliği – Neden ve ne değişti?

veri mühendisleri
Resim: Pexels

Hadoop ile büyük veri hype başlarken, hacim, hız ve doğrulukla ilgili endişeler ele alındı, bu bir kurumsal oyun olarak kaldı.

Gerçek inovasyon, AWS üzerinde yerel olarak oluşturulmuş bulut gibi, iyi bir ekonomi ve SQL dostu bir arayüzle büyük veri kümelerini işlemek için daha yüksek bir performansı garanti eden Redshift gibi MPP sistemleriyle başladı.

Bu da, verileri buluta taşımayı kolaylaştıran Fivetran gibi bir dizi veri alma aracını teşvik etti.

Bulutta veri altyapısının ve modern veri ekosisteminin gelişimi

Bugün, veriler bulut dosya sistemleri ve bulut veri ambarlarındaki veri göllerinde depolanıyor ve bunun Databricks ve Snowflake gibi satıcıların büyümesinde yansıtıldığını görüyoruz.

Veri odaklı olma hayali eskisinden çok daha yakın görünüyordu.

İş ekipleri, verileri analiz etmeye ve ihtiyaçlarına göre dönüştürmeye açlardı ve BI aracı ekosistemi, veriler üzerinde iş görünümünü oluşturmak için gelişti.

Bu evrimin altında ve boyunca değişen yön, çeşitli ekiplerin bulut ambarlarındaki verileri dönüştürmesi ve manipüle etmesi nedeniyle verilerin sıkı bir şekilde kontrol edilen ve yönetilen bir ortamdan vahşi batıya taşınmasıdır.

Veri ekiplerinin ve veri mühendisliğine bağlı iş ekiplerinin evrimi

Bu sadece verilerin hacmi ve büyümesi değildir. Veriye aç ekipler (veri tüketicileri) de BI ekipleri, analitik ekipleri ve veri bilimi ekipleri şeklinde patladı.

Aslında, (tamamen bulut üzerine kurulmuş olan) dijital yerel organizasyonlarda, iş ekipleri bile veri ekipleridir. Örneğin, bir pazarlamacı, kampanyaları optimize etmek için ürün trafiği hakkında gerçek zamanlı bilgi ister.

Bu uzmanlaşmış ve merkezi olmayan ekiplere ihtiyaç ve beklentileriyle hizmet etmek kolay bir iş değildir.

Veri ekosistemi akıllıca bir hareketle yanıt verdi ve özel dönüşümleri, birleştirmeleri, toplamaları vb. paketlemek için temel bir birim olarak veri mühendisliğinin ve işlem hatlarının başlangıcını belirledi.

Gerçek şu ki, veri ekipleri, hasarlı BI panoları ve ML modellerinden gelen çöp tahminleri gibi tüm veri tüketicilerini etkileyen bozuk boru hatları, değişen şemalar ve formatlarla sürekli olarak savaşıyor.

Bu, verilere güven oluşturma konusunda yeni bir düşünceyi gerektirir, eski veri kalitesi ölçütleri ve yaklaşımları yetersizdir.

Tüm şekillerdeki (örn. dağıtımlar) ve formlardaki (şema değişiklikleri, format değişiklikleri) ve BI mühendislerinin/analistlerinin ve veri bilimcilerinin ihtiyaçlarına hizmet eden verilerdeki değişiklikleri izlemek ve gözlemlemek için veri güvenilirliği ölçümlerine ihtiyacımız var.

Bulutta daha küçük işletmeler arasında veri güvenilirliğinin benimsenmesine yardımcı olan temel faktörler

pencerelerde icloud şifre yöneticisi
Resim: KnowTechie

İşletmeler kendi kendine hizmet eden araçlara doğru ilerledikçe, iş zekası (BI), veri analizi, bozuk gösterge tabloları ve sürüklenen makine öğrenimi modelleri her büyüklükteki işletme için acı verici olabilir.

Aslında, verinin değerini ortaya çıkarmak için kullanılabilecek veri güvenilirliği sorunları için çok fazla zaman harcadıkları için, daha küçük veri ekiplerine sahip işletmeler için sorun daha da belirginleşiyor.

Bu aynı zamanda, bulutta yerel mimariye dayalı mühendislik verimlilikleri sağlayan, veri güvenilirliği izlemesi için isteğe bağlı bilgi işlem ve depolamayı optimize eden ve ölçeklendiren daha ekonomik bir yol gerektirir.

İş ekiplerinin imdadına koşan kodsuz veri kalitesi

Verileri iş ekiplerine yakınlaştırma konusunda önemli ilerlemeler kaydedilmiş olsa da, modern veri ekosisteminde çözülmemiş bir boşluk var.

Mevcut araçlar yeteneği getiriyor, ayrıca veri altyapısının altında yatan karmaşıklığı doğrudan iş ekiplerine sunuyorlar.

Çoğu kuruluş, verilerle çalışmayı kolaylaştıran çok sayıda düşük kodlu araç bulunmadığından bulutu kullanmaya başlamayı zor buluyor.

Bu araçlar genellikle verilerin karmaşıklığı konusunda iyi bir soyutlamaya sahiptir, ancak her zaman kullanıcıların belirli hedef ve amaçlarına uygun bir kullanıcı arayüzüne sahip değildirler.

Bu alan hız kazanıyor ve veri güvenilirliği alanına kodsuz/düşük kodu getiren yeni gruplar görüyoruz.

Veri altyapısını, veri boru hatlarını ve veri kalitesi+güvenilirliğini etkin bir şekilde izlemek için yeni araçlar

Geniş bir araç yelpazesi, buluttaki modern veri ekosistemlerini izleme sorununu yeniden hayal ediyor.

Data Dog ve Yeni Kalıntı benzeri araçlar, buluttaki veri altyapısını izler. Unravel gibi diğer araçlar, buluttaki veri yığınlarını izler.

Bulutta veri boru hatlarını izlemek için ortaya çıkan araçlar da vardır. Ve son olarak Qualdo-DRX, veri kalitesini ve güvenilirliğini izlemek için özel olarak sunulan ve tüm genel bulutlar için yeniden tasarlanan lider bir araçtır.

Bu konuda herhangi bir fikriniz var mı? Aşağıdaki yorumlarda bize bildirin veya tartışmayı Twitter veya Facebook'a taşıyın.

Editörün Önerileri:

  • Veri mühendisleri, tüketici beklentilerini hayata geçirebilir
  • Çevik metodoloji veri ambarlarına nasıl uygulanır?
  • Gelişmiş analitik tekniğinde uzmanlaşmak için büyük veri analitiği Ppts
  • Bulut özellikli kurumsal çözümler hakkında bilmeniz gereken 4 şey