Datenqualität und Zuverlässigkeit für die Cloud – Azure, AWS & GCP

Veröffentlicht: 2022-07-01

Der heilige Gral des „Vertrauens in Daten“ von der Daten- zur Erkenntnisreise von Unternehmen ist nicht ganz neu. Da BI- und Analyse-Workloads von Data Warehouses getrennt sind, hat sich die Kluft vergrößert.

Es besteht eine noch größere Lücke zwischen den geschäftlichen Anforderungen, den von der IT-Anwendungslandschaft unterstützten Geschäftsabläufen und der Zuverlässigkeit der in den Data Warehouses für die Geschäftsteams gesammelten Daten.

Konzepte und Tools entstanden, um die Lücke zu schließen, in Form von:

  • Goldene Schallplatte für jede interessante Geschäftseinheit.
  • Darauf aufbauend war die Stammdatenverwaltung – die Standardisierung des Glossars darüber, wie Daten verstanden, organisiert und verwaltet werden, unterstützt von Anbietern wie IBM, Informatica und Talend.
  • Es versuchte, das Chaos durch Standardisierung zu zähmen, indem es Geschäftsglossare und Tonnen von ETL-Tools erfand, um die Geschäftsregeln zu unterstützen und Unternehmen dabei zu helfen, die Daten zu verstehen.

In diesem Chaos wurden Datenqualitätslösungen und -tools tief in MDM- und Data-Governance-Initiativen vergraben. Dennoch gab es zwei Herausforderungen – Die erste bestand darin, in die Vergangenheit zu schauen und zu fragen, ob Daten vertrauenswürdig sind.

Zweitens wurde „Qualität“ in Bezug auf den Golden Record und die Stammdaten gemessen – eine Standardisierung, die sich selbst ständig weiterentwickelte.

Datensicherheit in der Cloud – Warum & was hat sich geändert?

Dateningenieure
Bild: Pexels

Während der Big-Data-Hype mit Hadoop begann, wurden Bedenken hinsichtlich Volumen, Geschwindigkeit und Wahrhaftigkeit angegangen, aber dies blieb ein Unternehmensspiel.

Echte Innovationen begannen mit MPP-Systemen wie Redshift auf AWS, die nativ in der Cloud erstellt wurden und eine höhere Leistung bei der Handhabung massiver Datensätze mit guter Wirtschaftlichkeit und einer SQL-freundlichen Schnittstelle garantierten.

Dies wiederum spornte eine Reihe von Datenerfassungstools wie Fivetran an, die es einfacher machten, Daten in die Cloud zu bringen.

Entwicklung der Dateninfrastruktur und des modernen Datenökosystems in der Cloud

Heutzutage werden Daten in Data Lakes auf Cloud-Dateisystemen und Cloud-Data Warehouses gespeichert, und wir sehen, dass sich dies im Wachstum von Anbietern wie Databricks und Snowflake widerspiegelt.

Der Traum, datengetrieben zu sein, rückte viel näher als zuvor.

Business-Teams waren bestrebt, die Daten zu analysieren und an ihre Bedürfnisse anzupassen, und das BI-Tool-Ökosystem entwickelte sich weiter, um die Geschäftsansicht der Daten zu erstellen.

Die Facette, die sich unter und entlang dieser Entwicklung geändert hat, besteht darin, dass Daten aus einer streng kontrollierten und geregelten Umgebung in den wilden Westen verschoben wurden, während verschiedene Teams Daten in den Cloud-Warehouses transformieren und manipulieren.

Entwicklung von Datenteams und Data-Engineering-abhängigen Geschäftsteams

Es geht nicht nur um die Menge und das Wachstum der Daten. Die datenhungrigen Teams (Datenkonsumenten) sind auch in Form von BI-Teams, Analyseteams und Data-Science-Teams explodiert.

Tatsächlich sind in den Digital-Native-Organisationen (die ausschließlich auf der Cloud aufgebaut wurden) sogar die Geschäftsteams Datenteams. Ein Vermarkter möchte beispielsweise Echtzeitinformationen über den Produktverkehr, um Kampagnen zu optimieren.

Diese spezialisierten und dezentralen Teams mit ihren Anforderungen und Erwartungen zu bedienen, ist keine leichte Aufgabe.

Das Datenökosystem reagierte mit einem cleveren Schachzug und markierte den Beginn von Data Engineering und Pipelines als grundlegende Einheit, um die spezialisierten Transformationen, Verknüpfungen, Aggregationen usw. zu packen.

Die Realität ist, dass die Datenteams ständig gegen kaputte Pipelines, sich ändernde Schemas und Formate ankämpfen, die alle Datenverbraucher betreffen, wie beschädigte BI-Dashboards und Garbage-Prognosen von ML-Modellen.

Dies erfordert ein neues Denken, um Vertrauen in die Daten zu schaffen, bisherige Datenqualitätsmetriken und -ansätze reichen nicht aus.

Wir brauchen Datenzuverlässigkeitsmetriken, um die Änderungen in den Daten in allen Formen (z. B. Verteilungen) und Formen (Schemaänderungen, Formatänderungen) zu überwachen und zu beobachten, und diejenigen, die den Bedürfnissen von BI-Ingenieuren/Analysten und Datenwissenschaftlern dienen.

Schlüsselfaktoren für die Akzeptanz der Datenzuverlässigkeit bei kleineren Unternehmen in der Cloud

icloud passwortmanager unter windows
Bild: KnowTechie

Da Unternehmen auf Self-Serving-Tools für Business Intelligence (BI), Datenanalyse, fehlerhafte Dashboards und abweichende Machine-Learning-Modelle umsteigen, können Unternehmen jeder Größe schmerzhaft sein.

Tatsächlich wird das Problem für Unternehmen mit kleineren Datenteams akzentuiert, da sie viel Zeit damit verbringen, Probleme mit der Datenzuverlässigkeit zu bekämpfen, die andernfalls genutzt werden könnten, um den Wert der Daten freizusetzen.

Dies erfordert auch einen wirtschaftlicheren Weg, der Engineering-Effizienzen basierend auf Cloud-nativer Architektur, optimierter und skalierbarer On-Demand-Berechnung und -Speicherung für die Überwachung der Datenzuverlässigkeit bietet.

Datenqualität ohne Code zur Rettung von Geschäftsteams

Obwohl erhebliche Fortschritte bei der Heranführung von Daten an die Geschäftsteams erzielt wurden, bleibt eine ungelöste Lücke im modernen Datenökosystem.

Die aktuellen Tools bringen die Fähigkeit, sie legen auch die zugrunde liegende Komplexität der Dateninfrastruktur direkt für Geschäftsteams offen.

Die meisten Unternehmen finden es schwierig, mit der Nutzung der Cloud zu beginnen, da es nicht viele Low-Code-Tools gibt, die die Arbeit mit Daten erleichtern.

Diese Tools haben oft eine gute Abstraktion der Komplexität von Daten, aber nicht immer eine Benutzeroberfläche, die auf die spezifischen Ziele und Zwecke der Benutzer ausgerichtet ist.

Dieser Bereich nimmt Fahrt auf, und wir sehen neue Gruppen, die den No-Code/Low-Code in den Bereich der Datenzuverlässigkeit bringen.

Neue Tools zur effektiven Überwachung von Dateninfrastruktur, Datenpipelines und Datenqualität und -zuverlässigkeit

Ein breites Spektrum an Tools stellt das Problem der Überwachung der modernen Datenökosysteme in der Cloud neu vor.

Data Dog & New Relic-ähnliche Tools überwachen die Dateninfrastruktur in der Cloud. Andere Tools wie Unravel überwachen Datenstapel in der Cloud.

Es entstehen auch Tools zur Überwachung von Datenpipelines in der Cloud. Und schließlich ist Qualdo-DRX ein führendes Tool zur Überwachung der Datenqualität und -zuverlässigkeit, das exklusiv für alle öffentlichen Clouds verfügbar ist und neu konzipiert wurde.

Haben Sie irgendwelche Gedanken dazu? Lassen Sie es uns unten in den Kommentaren wissen oder übertragen Sie die Diskussion auf unseren Twitter oder Facebook.

Empfehlungen der Redaktion:

  • Dateningenieure können die Erwartungen der Verbraucher zum Leben erwecken
  • Wie lässt sich die agile Methodik auf Data Warehouses anwenden?
  • Big-Data-Analytics-Ppts zur Beherrschung der Advanced-Analytics-Technik
  • 4 Dinge, die Sie über Cloud-fähige Unternehmenslösungen wissen sollten