Jakość i niezawodność danych w chmurze – Azure, AWS i GCP
Opublikowany: 2022-07-01Święty Graal „zaufania do danych” od danych do podróży wglądowej przedsiębiorstw nie jest całkowicie nowy. Ponieważ obciążenia BI i analityczne są oddzielone od hurtowni danych, przepaść się poszerzyła.
Istnieje jeszcze większa rozbieżność między potrzebami biznesowymi, operacjami biznesowymi wspieranymi przez środowisko aplikacji IT a niezawodnością danych gromadzonych w hurtowniach danych dla zespołów biznesowych.
Pojawiły się koncepcje i narzędzia mające na celu zaradzenie tej luki w postaci:
- Złoty rekord dla każdego interesującego podmiotu gospodarczego.
- Na tym opierało się zarządzanie danymi podstawowymi – standaryzacja glosariusza na temat rozumienia, organizowania i zarządzania danymi, wspierana przez dostawców takich jak IBM, Informatica i Talend.
- Próbowano oswoić chaos poprzez standaryzację, wymyślając glosariusze biznesowe i mnóstwo narzędzi ETL do obsługi reguł biznesowych, aby pomóc firmom zrozumieć dane.
W tym chaosie rozwiązania i narzędzia jakości danych zostały głęboko zakopane w inicjatywach MDM i zarządzania danymi. Mimo to istniały dwa wyzwania – pierwszym było spojrzenie w przeszłość z pytaniem, czy dane są wiarygodne.
Po drugie, „jakość” była mierzona w odniesieniu do złotej płyty i danych podstawowych – standaryzacji, która sama w sobie stale ewoluowała.
Wiarygodność danych w chmurze – dlaczego i co się zmieniło?
Podczas gdy szum o big data zaczął się od Hadoop, rozwiązano problemy związane z objętością, szybkością i prawdziwością, pozostało to grą korporacyjną.
Prawdziwa innowacja rozpoczęła się od systemów MPP, takich jak Redshift na platformie AWS zbudowanej natywnie w chmurze, która gwarantowała wyższą wydajność do obsługi ogromnych zestawów danych przy dobrej ekonomii i interfejsie przyjaznym dla SQL.
To z kolei zachęciło do stworzenia zestawu narzędzi do pozyskiwania danych, takich jak Fivetran, które ułatwiły przenoszenie danych do chmury.
Ewolucja infrastruktury danych i nowoczesny ekosystem danych w chmurze
Obecnie dane są przechowywane w jeziorach danych w systemach plików w chmurze i hurtowniach danych w chmurze, co znajduje odzwierciedlenie we wzroście dostawców, takich jak Databricks i Snowflake.
Marzenie o byciu opartym na danych wyglądało znacznie bliżej niż wcześniej.
Zespoły biznesowe były głodne analizowania i przekształcania danych zgodnie ze swoimi potrzebami, a ekosystem narzędzi BI ewoluował w celu stworzenia biznesowego spojrzenia na dane.
Aspekt, który uległ zmianie pod i w trakcie tej ewolucji, polega na tym, że dane zostały przeniesione ze ściśle kontrolowanego i zarządzanego środowiska na dziki zachód, gdy różne zespoły przekształcają i manipulują danymi w magazynach w chmurze.
Ewolucja zespołów danych i zespołów biznesowych zależnych od inżynierii danych
To nie tylko ilość i przyrost danych. Zespoły głodne danych (konsumenci danych) również eksplodowały w postaci zespołów BI, zespołów analitycznych i zespołów data science.
W rzeczywistości w cyfrowych natywnych organizacjach (które zostały zbudowane wyłącznie w chmurze) nawet zespoły biznesowe są zespołami danych. Np. marketer potrzebuje informacji w czasie rzeczywistym o ruchu produktowym, aby zoptymalizować kampanie.
Służenie tym wyspecjalizowanym i zdecentralizowanym zespołom ich wymaganiami i oczekiwaniami nie jest łatwym zadaniem.
Ekosystem danych zareagował sprytnym posunięciem, wyznaczając początek inżynierii danych i potoków jako podstawowej jednostki do pakowania wyspecjalizowanych transformacji, łączeń, agregacji itp.
W rzeczywistości zespoły danych nieustannie walczą z uszkodzonymi potokami, zmieniającymi się schematami i formatami, które wpływają na wszystkich odbiorców danych, takich jak uszkodzone pulpity nawigacyjne BI i prognozy śmieci z modeli ML.
Wymaga to nowego myślenia o budowaniu zaufania do danych, podczas gdy metryki i podejścia dotyczące jakości danych są niewystarczające.
Potrzebujemy metryk wiarygodności danych, aby monitorować i obserwować zmiany danych we wszystkich kształtach (np. rozkłady) i formularzach (zmiany schematu, zmiany formatu) oraz te, które służą potrzebom inżynierów/analityków BI i analityków danych.
Kluczowe czynniki wspomagające przyjęcie niezawodności danych wśród mniejszych przedsiębiorstw w chmurze
W miarę jak przedsiębiorstwa przechodzą na samoobsługowe narzędzia do analizy biznesowej (BI), analizy danych, niedziałających pulpitów nawigacyjnych i dryfujących modeli uczenia maszynowego, mogą być bolesne dla przedsiębiorstw każdej wielkości.
W rzeczywistości problem jest uwydatniony w przypadku przedsiębiorstw z mniejszymi zespołami danych, ponieważ spędzają one dużo czasu na walce z problemami z wiarygodnością danych, które w przeciwnym razie mogłyby zostać wykorzystane do odblokowania wartości danych.
Wymaga to również bardziej ekonomicznego sposobu, który zapewni wydajność inżynieryjną w oparciu o architekturę natywną dla chmury, zoptymalizowane i skalowalne obliczenia i pamięć masową na żądanie w celu zapewnienia monitorowania niezawodności danych.
Jakość danych bez kodu na ratunek zespołom biznesowym
Chociaż osiągnięto znaczny postęp w zbliżaniu danych do zespołów biznesowych, pozostaje nierozwiązana luka we współczesnym ekosystemie danych.
Obecne narzędzia zapewniają takie możliwości, a także eksponują podstawową złożoność infrastruktury danych bezpośrednio zespołom biznesowym.
Większość przedsiębiorstw ma trudności z rozpoczęciem korzystania z chmury, ponieważ nie ma wielu narzędzi o niskim kodzie, które ułatwiają pracę z danymi.
Narzędzia te często mają dobrą abstrakcję złożoności danych, ale nie zawsze mają interfejs użytkownika dostosowany do konkretnych celów i zadań użytkowników.
Ten obszar nabiera rozpędu i widzimy nowe grupy wprowadzające brak kodu/niski kod w obszarze niezawodności danych.
Nowe narzędzia do skutecznego monitorowania danych Infra, potoków danych i jakości danych + niezawodność
Szerokie spektrum narzędzi na nowo wyobraża sobie problem monitorowania nowoczesnych ekosystemów danych w chmurze.
Narzędzia Data Dog i New Relic monitorują infrastrukturę danych w chmurze. Inne narzędzia, takie jak Unravel, monitorują stosy danych w chmurze.
Pojawiają się również narzędzia do monitorowania potoków danych w chmurze. I wreszcie, Qualdo-DRX jest wiodącym narzędziem do monitorowania jakości i niezawodności danych, dostępnym wyłącznie i przeprojektowanym dla wszystkich chmur publicznych.
Masz jakieś przemyślenia na ten temat? Daj nam znać poniżej w komentarzach lub przenieś dyskusję na naszego Twittera lub Facebooka.
Rekomendacje redaktorów:
- Inżynierowie danych mogą urzeczywistniać oczekiwania konsumentów
- Jak metodologia Agile odnosi się do hurtowni danych?
- Analiza Big Data Ppts, aby opanować zaawansowaną technikę analityczną
- 4 rzeczy, które należy wiedzieć o rozwiązaniach dla przedsiębiorstw obsługujących chmurę