Calitatea și fiabilitatea datelor pentru cloud – Azure, AWS și GCP

Publicat: 2022-07-01

Sfântul Graal al „încrederii în date” de la date la călătoria de perspectivă a întreprinderilor nu este cu totul nou. Deoarece sarcinile de lucru BI și analitice sunt separate de depozitele de date, prăpastia s-a extins.

Există un decalaj și mai mare între nevoile afacerii, operațiunile de afaceri susținute de peisajul aplicațiilor IT și fiabilitatea datelor acumulate în depozitele de date pentru echipele de afaceri.

Concepte și instrumente au apărut pentru a aborda decalajul sub formă de:

  • Record de aur pentru fiecare entitate comercială care prezintă interes.
  • S-a bazat pe managementul datelor de bază – standardizarea glosarului despre modul în care datele sunt înțelese, organizate și guvernate, susținut de furnizori precum IBM, Informatica și Talend.
  • A încercat să îmblânzească haosul prin standardizare, inventând glosare de afaceri și tone de instrumente ETL pentru a sprijini regulile de afaceri pentru a ajuta companiile să dea sens datelor.

În acest haos, soluțiile și instrumentele de calitate a datelor au fost îngropate adânc în MDM și inițiativele de guvernare a datelor. Cu toate acestea, existau două provocări – Prima a fost să privim în trecut în timp ce ne întrebam dacă datele sunt de încredere.

În al doilea rând, „calitatea” a fost măsurată în raport cu recordul de aur și datele de bază – standardizare, care în sine evolua constant.

Fiabilitatea datelor pe cloud – De ce și ce s-a schimbat?

Ingineri de date
Imagine: Pexels

În timp ce hype-ul de date mari a început cu Hadoop, preocupările legate de volum, viteză și veridicitate au fost abordate, aceasta a rămas un joc de întreprindere.

Adevărata inovație a început cu sisteme MPP precum Redshift pe AWS, construite nativ în cloud, care a garantat o performanță mai mare pentru a gestiona seturi de date masive cu o economie bună și o interfață prietenoasă cu SQL.

Acest lucru, la rândul său, a stimulat un set de instrumente de asimilare a datelor, cum ar fi Fivetran, care a făcut mai ușoară aducerea datelor în cloud.

Evoluția infrastructurii de date și a ecosistemului de date modern pe cloud

Astăzi, datele sunt stocate în lacuri de date pe sisteme de fișiere cloud și depozite de date în cloud, iar acest lucru se reflectă în creșterea furnizorilor precum Databricks și Snowflake.

Visul de a fi bazat pe date părea mult mai aproape decât înainte.

Echipele de afaceri au fost dornice să analizeze și să transforme datele în funcție de nevoile lor, iar ecosistemul de instrumente BI a evoluat pentru a crea imaginea de afaceri asupra datelor.

Fațeta care s-a schimbat sub și de-a lungul acestei evoluții este că datele s-au mutat dintr-un mediu strict controlat și guvernat în vestul sălbatic, pe măsură ce diverse echipe transformă și manipulează datele din depozitele cloud.

Evoluția echipelor de date și a echipelor de afaceri dependente de ingineria datelor

Nu este vorba doar de volumul și creșterea datelor. Echipele înfometate de date (consumatori de date) au explodat și sub forma echipelor de BI, echipe de analiză și echipe de știință a datelor.

De fapt, în organizațiile native digitale (care au fost construite exclusiv pe cloud), chiar și echipele de afaceri sunt echipe de date. De exemplu, un agent de marketing dorește informații în timp real despre traficul de produse pentru a optimiza campaniile.

Servirea acestor echipe specializate și descentralizate cu cerințele și așteptările lor nu este o sarcină ușoară.

Ecosistemul de date a răspuns cu o mișcare inteligentă, marcând începutul ingineriei datelor și conductelor ca o unitate de bază pentru a împacheta transformările specializate, îmbinări, agregări etc.

Realitatea este că echipele de date luptă în mod constant în bătălia conductelor rupte, a schemelor și a formatelor în schimbare, care afectează toți consumatorii de date, cum ar fi tablourile de bord BI deteriorate și predicțiile deșeurilor din modelele ML.

Acest lucru necesită o nouă gândire cu privire la crearea încrederii în date, în timp ce valorile și abordările privind calitatea datelor sunt insuficiente.

Avem nevoie de metrici de fiabilitate a datelor pentru a monitoriza și observa modificările datelor în toate formele (de exemplu, distribuțiile) și formele (modificări de schemă, modificări de format) și cele care servesc nevoilor inginerilor/analiștilor BI și oamenilor de știință de date.

Factori cheie care ajută la adoptarea fiabilității datelor în rândul întreprinderilor mai mici pe cloud

manager de parole icloud pe Windows
Imagine: KnowTechie

Pe măsură ce întreprinderile se îndreaptă către instrumente de autoservire pentru, business intelligence (BI), analiza datelor, tablourile de bord sparte și modelele de învățare automată în derivă pot fi dureroase pentru întreprinderile de toate dimensiunile.

De fapt, problema este accentuată pentru întreprinderile cu echipe de date mai mici, deoarece acestea petrec mult timp luptă împotriva problemelor de fiabilitate a datelor, care altfel ar putea fi utilizate pentru a debloca valoarea datelor.

Acest lucru necesită, de asemenea, o modalitate mai economică care să ofere eficiență de inginerie bazată pe arhitectura nativă cloud, optimizare și scalare la cerere și stocare pentru monitorizarea fiabilității datelor.

Calitatea datelor fără cod pentru salvarea echipelor de afaceri

Deși s-au realizat progrese semnificative în apropierea datelor de echipele de afaceri, rămâne un decalaj nerezolvat în ecosistemul modern de date.

Instrumentele actuale aduc capacitatea, ele expun, de asemenea, complexitatea de bază a infrastructurii de date direct echipelor de afaceri.

Majoritatea întreprinderilor consideră că este dificil să înceapă să folosească cloud-ul, deoarece nu există multe instrumente low-code care să faciliteze lucrul cu datele.

Aceste instrumente au adesea o bună abstractizare a complexității datelor, dar nu au întotdeauna o interfață cu utilizatorul care este aliniată la obiectivele și scopurile specifice ale utilizatorilor.

Această zonă își ia avânt și vedem noi grupuri care aduc codul fără cod/low code în zona de fiabilitate a datelor.

Noi instrumente pentru a monitoriza eficient datele Infra, conductele de date și calitatea datelor+fiabilitatea

Un spectru larg de instrumente re-imaginează problema monitorizării ecosistemelor moderne de date pe cloud.

Instrumentele de tip Data Dog și New Relic monitorizează infrastructura de date pe cloud. Alte instrumente precum Unravel, monitorizează stivele de date pe cloud.

De asemenea, apar instrumente pentru a monitoriza conductele de date pe cloud. Și, în sfârșit, Qualdo-DRX este un instrument de vârf pentru monitorizarea calității și fiabilității datelor, disponibil exclusiv și re-imaginat pentru toate cloud-urile publice.

Ai vreo părere despre asta? Anunțați-ne mai jos în comentarii sau transmiteți discuția pe Twitter sau Facebook.

Recomandările editorilor:

  • Inginerii de date pot aduce la viață așteptările consumatorilor
  • Cum se aplică metodologia Agile pentru depozitele de date?
  • Ppts de analiză a datelor mari pentru a stăpâni tehnica avansată de analiză
  • 4 lucruri de știut despre soluțiile de întreprindere activate în cloud