Jakość i niezawodność danych w chmurze – Azure, AWS i GCP

Opublikowany: 2022-07-01

Święty Graal „zaufania do danych” od danych do podróży wglądowej przedsiębiorstw nie jest całkowicie nowy. Ponieważ obciążenia BI i analityczne są oddzielone od hurtowni danych, przepaść się poszerzyła.

Istnieje jeszcze większa rozbieżność między potrzebami biznesowymi, operacjami biznesowymi wspieranymi przez środowisko aplikacji IT a niezawodnością danych gromadzonych w hurtowniach danych dla zespołów biznesowych.

Pojawiły się koncepcje i narzędzia mające na celu zaradzenie tej luki w postaci:

  • Złoty rekord dla każdego interesującego podmiotu gospodarczego.
  • Na tym opierało się zarządzanie danymi podstawowymi – standaryzacja glosariusza na temat rozumienia, organizowania i zarządzania danymi, wspierana przez dostawców takich jak IBM, Informatica i Talend.
  • Próbowano oswoić chaos poprzez standaryzację, wymyślając glosariusze biznesowe i mnóstwo narzędzi ETL do obsługi reguł biznesowych, aby pomóc firmom zrozumieć dane.

W tym chaosie rozwiązania i narzędzia jakości danych zostały głęboko zakopane w inicjatywach MDM i zarządzania danymi. Mimo to istniały dwa wyzwania – pierwszym było spojrzenie w przeszłość z pytaniem, czy dane są wiarygodne.

Po drugie, „jakość” była mierzona w odniesieniu do złotej płyty i danych podstawowych – standaryzacji, która sama w sobie stale ewoluowała.

Wiarygodność danych w chmurze – dlaczego i co się zmieniło?

Inżynierowie danych
Obraz: Pexels

Podczas gdy szum o big data zaczął się od Hadoop, rozwiązano problemy związane z objętością, szybkością i prawdziwością, pozostało to grą korporacyjną.

Prawdziwa innowacja rozpoczęła się od systemów MPP, takich jak Redshift na platformie AWS zbudowanej natywnie w chmurze, która gwarantowała wyższą wydajność do obsługi ogromnych zestawów danych przy dobrej ekonomii i interfejsie przyjaznym dla SQL.

To z kolei zachęciło do stworzenia zestawu narzędzi do pozyskiwania danych, takich jak Fivetran, które ułatwiły przenoszenie danych do chmury.

Ewolucja infrastruktury danych i nowoczesny ekosystem danych w chmurze

Obecnie dane są przechowywane w jeziorach danych w systemach plików w chmurze i hurtowniach danych w chmurze, co znajduje odzwierciedlenie we wzroście dostawców, takich jak Databricks i Snowflake.

Marzenie o byciu opartym na danych wyglądało znacznie bliżej niż wcześniej.

Zespoły biznesowe były głodne analizowania i przekształcania danych zgodnie ze swoimi potrzebami, a ekosystem narzędzi BI ewoluował w celu stworzenia biznesowego spojrzenia na dane.

Aspekt, który uległ zmianie pod i w trakcie tej ewolucji, polega na tym, że dane zostały przeniesione ze ściśle kontrolowanego i zarządzanego środowiska na dziki zachód, gdy różne zespoły przekształcają i manipulują danymi w magazynach w chmurze.

Ewolucja zespołów danych i zespołów biznesowych zależnych od inżynierii danych

To nie tylko ilość i przyrost danych. Zespoły głodne danych (konsumenci danych) również eksplodowały w postaci zespołów BI, zespołów analitycznych i zespołów data science.

W rzeczywistości w cyfrowych natywnych organizacjach (które zostały zbudowane wyłącznie w chmurze) nawet zespoły biznesowe są zespołami danych. Np. marketer potrzebuje informacji w czasie rzeczywistym o ruchu produktowym, aby zoptymalizować kampanie.

Służenie tym wyspecjalizowanym i zdecentralizowanym zespołom ich wymaganiami i oczekiwaniami nie jest łatwym zadaniem.

Ekosystem danych zareagował sprytnym posunięciem, wyznaczając początek inżynierii danych i potoków jako podstawowej jednostki do pakowania wyspecjalizowanych transformacji, łączeń, agregacji itp.

W rzeczywistości zespoły danych nieustannie walczą z uszkodzonymi potokami, zmieniającymi się schematami i formatami, które wpływają na wszystkich odbiorców danych, takich jak uszkodzone pulpity nawigacyjne BI i prognozy śmieci z modeli ML.

Wymaga to nowego myślenia o budowaniu zaufania do danych, podczas gdy metryki i podejścia dotyczące jakości danych są niewystarczające.

Potrzebujemy metryk wiarygodności danych, aby monitorować i obserwować zmiany danych we wszystkich kształtach (np. rozkłady) i formularzach (zmiany schematu, zmiany formatu) oraz te, które służą potrzebom inżynierów/analityków BI i analityków danych.

Kluczowe czynniki wspomagające przyjęcie niezawodności danych wśród mniejszych przedsiębiorstw w chmurze

menedżer haseł icloud w systemie Windows
Obraz: KnowTechie

W miarę jak przedsiębiorstwa przechodzą na samoobsługowe narzędzia do analizy biznesowej (BI), analizy danych, niedziałających pulpitów nawigacyjnych i dryfujących modeli uczenia maszynowego, mogą być bolesne dla przedsiębiorstw każdej wielkości.

W rzeczywistości problem jest uwydatniony w przypadku przedsiębiorstw z mniejszymi zespołami danych, ponieważ spędzają one dużo czasu na walce z problemami z wiarygodnością danych, które w przeciwnym razie mogłyby zostać wykorzystane do odblokowania wartości danych.

Wymaga to również bardziej ekonomicznego sposobu, który zapewni wydajność inżynieryjną w oparciu o architekturę natywną dla chmury, zoptymalizowane i skalowalne obliczenia i pamięć masową na żądanie w celu zapewnienia monitorowania niezawodności danych.

Jakość danych bez kodu na ratunek zespołom biznesowym

Chociaż osiągnięto znaczny postęp w zbliżaniu danych do zespołów biznesowych, pozostaje nierozwiązana luka we współczesnym ekosystemie danych.

Obecne narzędzia zapewniają takie możliwości, a także eksponują podstawową złożoność infrastruktury danych bezpośrednio zespołom biznesowym.

Większość przedsiębiorstw ma trudności z rozpoczęciem korzystania z chmury, ponieważ nie ma wielu narzędzi o niskim kodzie, które ułatwiają pracę z danymi.

Narzędzia te często mają dobrą abstrakcję złożoności danych, ale nie zawsze mają interfejs użytkownika dostosowany do konkretnych celów i zadań użytkowników.

Ten obszar nabiera rozpędu i widzimy nowe grupy wprowadzające brak kodu/niski kod w obszarze niezawodności danych.

Nowe narzędzia do skutecznego monitorowania danych Infra, potoków danych i jakości danych + niezawodność

Szerokie spektrum narzędzi na nowo wyobraża sobie problem monitorowania nowoczesnych ekosystemów danych w chmurze.

Narzędzia Data Dog i New Relic monitorują infrastrukturę danych w chmurze. Inne narzędzia, takie jak Unravel, monitorują stosy danych w chmurze.

Pojawiają się również narzędzia do monitorowania potoków danych w chmurze. I wreszcie, Qualdo-DRX jest wiodącym narzędziem do monitorowania jakości i niezawodności danych, dostępnym wyłącznie i przeprojektowanym dla wszystkich chmur publicznych.

Masz jakieś przemyślenia na ten temat? Daj nam znać poniżej w komentarzach lub przenieś dyskusję na naszego Twittera lub Facebooka.

Rekomendacje redaktorów:

  • Inżynierowie danych mogą urzeczywistniać oczekiwania konsumentów
  • Jak metodologia Agile odnosi się do hurtowni danych?
  • Analiza Big Data Ppts, aby opanować zaawansowaną technikę analityczną
  • 4 rzeczy, które należy wiedzieć o rozwiązaniach dla przedsiębiorstw obsługujących chmurę