Qualità e affidabilità dei dati per il cloud: Azure, AWS e GCP

Pubblicato: 2022-07-01

Il Santo Graal della "fiducia nei dati" dai dati al viaggio di insight delle imprese non è del tutto nuovo. Poiché i carichi di lavoro BI e analitici sono separati dai data warehouse, il baratro si è allargato.

Esiste un divario ancora più ampio tra ciò di cui l'azienda ha bisogno, le operazioni aziendali supportate dal panorama delle applicazioni IT e l'affidabilità dei dati accumulati nei data warehouse per i team aziendali.

Concetti e strumenti sono emersi per colmare il divario sotto forma di:

  • Record d'oro per ogni entità aziendale di interesse.
  • Basandosi su di esso è stata la gestione dei dati principali, standardizzando il glossario su come i dati vengono compresi, organizzati e gestiti, supportata da fornitori come IBM, Informatica e Talend.
  • Ha tentato di domare il caos mediante la standardizzazione inventando glossari aziendali e tonnellate di strumenti ETL per supportare le regole aziendali per aiutare le aziende a dare un senso ai dati.

In questo caos, le soluzioni e gli strumenti per la qualità dei dati sono stati sepolti in profondità nelle iniziative di MDM e governance dei dati. Tuttavia, esistevano due sfide: la prima era guardare al passato mentre si chiedeva se i dati fossero affidabili.

In secondo luogo, la "qualità" è stata misurata rispetto al record d'oro e ai dati anagrafici: la standardizzazione, che a sua volta era in continua evoluzione.

Affidabilità dei dati sul cloud: perché e cosa è cambiato?

Ingegneri dei dati
Immagine: Pexel

Mentre il clamore dei big data è iniziato con Hadoop, sono state affrontate le preoccupazioni relative a volume, velocità e veridicità, questo è rimasto un gioco da impresa.

La vera innovazione ha avuto inizio con i sistemi MPP come Redshift su AWS, creati su cloud in modo nativo, che garantivano prestazioni più elevate per gestire enormi set di dati con una buona economia e un'interfaccia compatibile con SQL.

Questo, a sua volta, ha stimolato una serie di strumenti di acquisizione dei dati come Fivetran, che hanno semplificato il trasferimento dei dati sul cloud.

Evoluzione dell'infrastruttura dati e moderno ecosistema di dati sul cloud

Oggi, i dati vengono archiviati in data lake su file system cloud e data warehouse su cloud e questo si riflette nella crescita di fornitori come Databricks e Snowflake.

Il sogno di essere guidato dai dati sembrava molto più vicino di prima.

I team aziendali erano desiderosi di analizzare e trasformare i dati in base alle proprie esigenze e l'ecosistema degli strumenti BI si è evoluto per creare la vista aziendale sui dati.

L'aspetto che è cambiato sotto e lungo questa evoluzione è che i dati si sono spostati da un ambiente rigorosamente controllato e governato al selvaggio west mentre vari team stanno trasformando e manipolando i dati sui cloud warehouse.

Evoluzione dei team di dati e dei team aziendali dipendenti dall'ingegneria dei dati

Non è solo il volume e la crescita dei dati. Anche i team affamati di dati (consumatori di dati) sono esplosi sotto forma di team di BI, team di analisi e team di scienza dei dati.

Infatti, nelle organizzazioni native digitali (che erano puramente basate sul cloud), anche i team aziendali sono data team. Ad esempio, un marketer desidera informazioni in tempo reale sul traffico dei prodotti per ottimizzare le campagne.

Servire questi team specializzati e decentralizzati con le loro esigenze e aspettative non è un compito facile.

L'ecosistema dei dati ha risposto con una mossa intelligente, segnando l'inizio dell'ingegneria dei dati e delle pipeline come unità di base per impacchettare le trasformazioni specializzate, i join, le aggregazioni, ecc.

La realtà è che i data team combattono costantemente la battaglia di pipeline interrotte, schemi e formati modificati, che interessano tutti i consumatori di dati come dashboard BI danneggiati e previsioni di dati inutili da modelli ML.

Ciò richiede un nuovo modo di pensare alla creazione di fiducia nei dati, poiché in passato le metriche e gli approcci sulla qualità dei dati sono insufficienti.

Abbiamo bisogno di metriche di affidabilità dei dati per monitorare e osservare i cambiamenti nei dati in tutte le forme (ad esempio, distribuzioni) e moduli (cambiamenti di schema, cambiamenti di formato) e quelli che soddisfano le esigenze di ingegneri/analisti BI e data scientist.

Fattori chiave che aiutano l'adozione dell'affidabilità dei dati tra le piccole imprese sul cloud

Gestione password iCloud su Windows
Immagine: KnowTech

Man mano che le aziende si spostano verso strumenti self-service per business intelligence (BI), analisi dei dati, dashboard interrotti e modelli di apprendimento automatico alla deriva possono essere dolorosi per le aziende di tutte le dimensioni.

In effetti, il problema è accentuato per le aziende con team di dati più piccoli poiché trascorrono molto tempo a combattere problemi di affidabilità dei dati, che altrimenti potrebbero essere utilizzati per sbloccare il valore dei dati.

Ciò richiede anche un modo più economico che offra efficienze ingegneristiche basate su un'architettura nativa del cloud, elaborazione e archiviazione su richiesta ottimizzate e scalabili per il monitoraggio dell'affidabilità dei dati da fornire.

Qualità dei dati senza codice per il salvataggio dei team aziendali

Sebbene siano stati compiuti progressi significativi nell'avvicinare i dati ai team aziendali, permane un divario irrisolto nel moderno ecosistema di dati.

Gli strumenti attuali offrono funzionalità, espongono anche la complessità sottostante dell'infrastruttura dati direttamente ai team aziendali.

La maggior parte delle aziende trova difficile iniziare a utilizzare il cloud perché non ci sono molti strumenti low-code che semplifichino il lavoro con i dati.

Questi strumenti spesso hanno una buona astrazione della complessità dei dati, ma non sempre hanno un'interfaccia utente allineata agli obiettivi e alle finalità specifici degli utenti.

Quest'area sta prendendo piede e stiamo vedendo nuovi gruppi che portano il codice no-code/low code nell'area dell'affidabilità dei dati.

Nuovi strumenti per monitorare efficacemente i dati Infra, pipeline di dati e qualità e affidabilità dei dati

Un ampio spettro di strumenti sta reimmaginando il problema del monitoraggio dei moderni ecosistemi di dati sul cloud.

Gli strumenti simili a Data Dog e New Relic monitorano l'infrastruttura dati sul cloud. Altri strumenti come Unravel, monitorano gli stack di dati sul cloud.

Esistono anche strumenti che stanno emergendo per monitorare le pipeline di dati sul cloud. Infine, Qualdo-DRX è uno strumento leader per monitorare la qualità e l'affidabilità dei dati, disponibile esclusivamente e reinventato per tutti i cloud pubblici.

Hai qualche idea su questo? Fatecelo sapere in basso nei commenti o trasferite la discussione sul nostro Twitter o Facebook.

Raccomandazioni della redazione:

  • I data engineer possono dare vita alle aspettative dei consumatori
  • Come si applica la metodologia Agile ai data warehouse?
  • Big data analytics Ppts per padroneggiare la tecnica di analisi avanzata
  • 4 cose da sapere sulle soluzioni aziendali abilitate per il cloud