Data Fabric vs. Data Mesh: diferența
Publicat: 2022-03-14În căutarea dezvoltării celei mai bune arhitecturi de date pentru cerințele prezente și viitoare ale unei organizații, există multe opțiuni pe care întreprinderile le pot alege. Datorită ambalării structurii software a software-ului, aceste opțiuni sunt multe dintre care organizațiile pot alege. Întreprinderilor le poate fi dificil să selecteze opțiunea potrivită, motiv pentru care în ultima perioadă au apărut modele din maw, permițând organizațiilor să le ajute în călătoria managementului datelor, care include țesături de date și rețele de date.
În primul rând, atât structura de date, cât și baza de date reflectă similaritatea din punct de vedere conceptual. Ochiurile sunt de obicei realizate din țesături și li se pot da diferite forme, conform cerințelor. Acest lucru permite departamentelor IT să plaseze aceste rețele peste alte sisteme, care sunt continuu în proces de prelucrare a datelor.
Indiferent cât de asemănătoare arată ambele abordări, există unele diferențe distincte, care pot fi observate doar dacă ne aprofundăm mai mult în aceste două abordări.
Ce este Data Fabric
Prima definiție a fabricii de date a venit la mijlocul anilor 200, când Noel Yuhanna, un analist de la Forrester, a fost primul individ care a făcut acest lucru. Din punct de vedere al conceptului, structura de date este o modalitate bazată pe metadate de a conecta un set variat de instrumente de date. Obiectivul este de a aborda principalele puncte de durere în unele dintre proiectele de date mari, nu doar într-o manieră coerentă, ci și funcționând într-un model de autoservire. Există diferite capacități pe care le oferă soluțiile de fabrică de date, cum ar fi accesul la date, descoperirea, transformarea, integrarea, guvernanța, descendența și securitatea.
Există un ritm semnificativ care sa dezvoltat în conceptul de țesătură de date. Acest lucru ajută la simplificarea procesului de accesare și gestionare a datelor într-un mediu eterogen în creștere. Un mediu eterogen cuprinde depozite de date tranzacționale și operaționale, lacuri de date, depozite de date și case de lacuri. Vedem un număr tot mai mare de organizații care dezvoltă silozuri de date și, datorită cloud computing-ului, problema legată de diversificarea datelor devine din ce în ce mai mare.
Având o singură țesătură de date plasată deasupra depozitelor de date, o întreprindere o poate împacheta sub formă de management unificat pentru diferitele surse de date, care include consumatorii de date din aval, cum ar fi oamenii de știință de date, inginerii de date și analiștii de date. Cu toate acestea, ceea ce trebuie remarcat este că managementul datelor este unificat și nu stocarea propriu-zisă. Stocarea reală rămâne încă într-un model distribuit. Există mulți furnizori, cum ar fi Informatica și Talend, care oferă fabrică de date cu capabilitățile descrise mai sus.
Ce este Data Mesh
În timp ce rețeaua de date rezolvă majoritatea problemelor pe care le face o țesătură de date, cum ar fi provocarea de a gestiona datele într-un mediu eterogen. Cu toate acestea, metoda de tratare și rezolvare a acestei probleme este diferită într-o abordare a rețelei de date. În timp ce structura de date creează un singur strat de management virtual pe deasupra stocării de date care găzduiește date distribuite, abordarea rețelei de date se referă mai mult la un grup distribuit de echipe care vor gestiona datele conform cerințelor, în ciuda faptului că au unele protocoale de guvernare.
Conceptul de rețea de date a fost definit de Zhamak Dehgani. Zhamak este directorul de incubare tehnologică la Thoughtworks North America. Principiul fundamental care guvernează abordarea rețelei de date în rezolvarea incompatibilității dintre lacul de date și depozitul de date. Depozitul de date de prima generație este conceput pentru a stoca cantități masive de date structurate, care sunt consumate în principal de analiștii de date.
Cu toate acestea, lacul de date din a doua generație este utilizat pentru stocarea unor cantități enorme de date nestructurate, care sunt utilizate în principal pentru construirea de modele predictive de învățare automată. În această definiție, Zhamak a explicat despre un depozit de date din a treia generație (cunoscut sub numele de Kappa), care se referă la fluxuri de date în timp real prin adoptarea serviciilor cloud. Cu toate acestea, acest lucru nu rezolvă decalajul dintre sistemele de prima și a doua generație din punct de vedere al utilizării.
În procesul de asigurare a sincronizării datelor, multe întreprinderi dezvoltă și mențin o conductă exhaustivă de date ETL. Ca rezultat, acest lucru creează o nevoie de ingineri de date extrem de specializați, care au competența de a menține funcționarea unor astfel de sisteme.
Un punct critic pe care Zhamak l-a prezentat a fost problema că transformarea datelor nu poate fi conectată în date de către ingineri. Dimpotrivă, ar trebui să fie ceva ca un filtru care se aplică unui set comun de date, care este disponibil pentru toți utilizatorii.
Deci, în loc să dezvolte o conductă complexă de date ETL, datele sunt stocate în forma sa originală. Proprietatea datelor este preluată de o echipă formată din experți în domeniu. Arhitectura noii abordări a rețelei de date explicată de Zhamak, constă din următoarele caracteristici:
- Proprietatea bazată pe domenii asupra datelor și arhitecturii descentralizate
- Datele ca produs
- Platforma de infrastructură de date este oferită într-un model de autoservire
- Guvernare computațională federată
Pe scurt, abordarea rețelei de date identifică că numai lacurile de date posedă flexibilitatea și scalabilitatea pentru a gestiona cerințele de analiză.
Data Mesh vs Data Fabric
După cum am observat mai sus, există destul de multe asemănări între rețeaua de date și abordarea fabricii de date. Cu toate acestea, să ne uităm și la diferențele dintre cele două.
Potrivit lui Noel Yuhanna, un analist de la Forrester, diferența majoră dintre rețeaua de date și abordarea țesăturii de date este modul în care sunt procesate API-urile.
O rețea de date se bazează în primul rând pe API pentru dezvoltatori, în timp ce structura de date nu este. Fabrica de date este în esență opusul rețelei de date, în care dezvoltatorii vor scrie cod pentru API-uri pe interfața aplicației. Spre deosebire de rețeaua de date, țesătura de date este o metodă fără cod sau low-code, în care integrarea API este executată în țesătură fără a o folosi direct.
Potrivit unui alt analist, James Serra, care lucrează cu Ernst & Young ca arhitect de date mari și depozitare de date, diferența dintre rețeaua de date și țesătura de date constă în tipul de utilizatori care le accesează.
Rețeaua de date și țesătura de date oferă acces la date prin diferite tehnologii și platforme. Diferența este că țesătura de date este mai centrată pe tehnologie, în timp ce rețeaua de date depinde mai mult de schimbările organizaționale.
Potrivit unui analist al grupului Eckerson, David Wells, o întreprindere poate folosi împreună o rețea de date, o țesătură de date și chiar un hub de date. Wells adaugă în continuare că aceste două sunt concepte și nu se exclud reciproc din punct de vedere tehnic.
Produsele Data fabric sunt dezvoltate în principal pe modele de utilizare a producției, în timp ce produsele Data Mesh sunt proiectate pe domenii de afaceri. Descoperirea metadatelor este continuă, iar analiza este un proces continuu în cazul Data Fabric, în timp ce în cazul rețelei de date metadatele operează într-un domeniu de afaceri localizat și sunt de natură statică.
Din punct de vedere al implementării, structura de date valorifică infrastructura actuală disponibilă, în timp ce rețeaua de date extrapolează infrastructura actuală cu noi implementări în domeniile de afaceri.
Atât rețeaua de date, cât și țesăturile de date își găsesc un loc în sala de consiliu a datelor mari. Când vine vorba de găsirea cadrului sau arhitecturii potrivite.
Alte resurse utile:
5 pași pentru a crea o cultură bazată pe date | TechFunnel
Ce este Big Data Analytics? Ghid pentru începători | Techfunnel
De ce o cultură bazată pe date este esențială pentru transformarea digitală
Data Mining – Tot ce trebuie să știți | Techfunnel