Qualité et fiabilité des données pour le cloud – Azure, AWS et GCP

Publié: 2022-07-01

Le Saint Graal de la « confiance dans les données », des données à la perspicacité des entreprises, n'est pas entièrement nouveau. Étant donné que les charges de travail décisionnelles et analytiques sont séparées des entrepôts de données, le gouffre s'est creusé.

Il existe un écart encore plus grand entre les besoins de l'entreprise, les opérations commerciales prises en charge par le paysage des applications informatiques et la fiabilité des données accumulées dans les entrepôts de données pour les équipes commerciales.

Des concepts et des outils ont émergé pour combler l'écart sous la forme de :

  • Disque d'or pour chaque entité commerciale qui vous intéresse.
  • La gestion des données de référence s'en est appuyée - standardisant le glossaire sur la façon dont les données sont comprises, organisées et gouvernées, pris en charge par des fournisseurs comme IBM, Informatica et Talend.
  • Il a tenté d'apprivoiser le chaos par la normalisation en inventant des glossaires métier et des tonnes d'outils ETL pour soutenir les règles métier afin d'aider les entreprises à donner un sens aux données.

Dans ce chaos, les solutions et outils de qualité des données ont été enfouis profondément dans les initiatives de MDM et de gouvernance des données. Pourtant, deux défis existaient - Le premier consistait à se pencher sur le passé tout en se demandant si les données étaient fiables.

Deuxièmement, la « qualité » a été mesurée par rapport au record d'or et aux données de base – la normalisation, qui elle-même était en constante évolution.

Fiabilité des données sur le cloud - Pourquoi et qu'est-ce qui a changé ?

Ingénieurs de données
Image : Pexels

Alors que le battage médiatique du Big Data a commencé avec Hadoop, les problèmes de volume, de vitesse et de véracité ont été abordés, cela est resté un jeu d'entreprise.

La véritable innovation a démarré avec des systèmes MPP comme Redshift sur AWS construits nativement dans le cloud, ce qui a garanti une meilleure performance pour gérer des ensembles de données massifs avec une bonne économie et une interface compatible SQL.

Ceci, à son tour, a stimulé un ensemble d'outils d'ingestion de données tels que Fivetran, qui a facilité l'apport de données sur le cloud.

Évolution de l'infrastructure de données et de l'écosystème de données moderne sur le cloud

Aujourd'hui, les données sont stockées dans des lacs de données sur des systèmes de fichiers cloud et des entrepôts de données cloud, et nous constatons que cela se reflète dans la croissance de fournisseurs tels que Databricks et Snowflake.

Le rêve d'être axé sur les données semblait beaucoup plus proche qu'auparavant.

Les équipes commerciales avaient soif d'analyser et de transformer les données en fonction de leurs besoins, et l'écosystème d'outils de BI a évolué pour créer la vue commerciale sur les données.

La facette qui a changé sous et tout au long de cette évolution est que les données sont passées d'un environnement strictement contrôlé et gouverné au Far West alors que diverses équipes transforment et manipulent les données sur les entrepôts cloud.

Évolution des équipes de données et des équipes métiers dépendantes de l'ingénierie des données

Ce n'est pas seulement le volume et la croissance des données. Les équipes avides de données (consommateurs de données) ont également explosé sous la forme d'équipes BI, d'équipes analytiques et d'équipes de science des données.

En fait, dans les organisations natives numériques (qui étaient purement construites sur le cloud), même les équipes commerciales sont des équipes de données. Par exemple, un spécialiste du marketing veut des informations en temps réel sur le trafic des produits pour optimiser les campagnes.

Servir ces équipes spécialisées et décentralisées avec leurs exigences et leurs attentes n'est pas une mince affaire.

L'écosystème de données a répondu par un geste intelligent, marquant le début de l'ingénierie des données et des pipelines en tant qu'unité de base pour regrouper les transformations spécialisées, les jointures, les agrégations, etc.

La réalité est que les équipes de données se battent constamment contre les pipelines brisés, les schémas et les formats changeants, qui affectent tous les consommateurs de données, comme les tableaux de bord BI endommagés et les prédictions erronées des modèles ML.

Cela appelle une nouvelle réflexion sur la création de la confiance dans les données, alors que les mesures et les approches de la qualité des données sont insuffisantes.

Nous avons besoin de mesures de fiabilité des données pour surveiller et observer les changements dans les données sous toutes leurs formes (par exemple, les distributions) et sous toutes leurs formes (changements de schéma, changements de format) et celles qui répondent aux besoins des ingénieurs/analystes BI et des data scientists.

Facteurs clés favorisant l'adoption de la fiabilité des données par les petites entreprises sur le cloud

gestionnaire de mot de passe icloud sur windows
Image : KnowTechie

Alors que les entreprises se tournent vers des outils autonomes pour l'informatique décisionnelle (BI), l'analyse des données, les tableaux de bord défectueux et les modèles d'apprentissage automatique à la dérive peuvent être pénibles pour les entreprises de toutes tailles.

En fait, le problème est accentué pour les entreprises avec des équipes de données plus petites, car elles passent beaucoup de temps à lutter contre les problèmes de fiabilité des données, qui pourraient autrement être utilisées pour libérer la valeur des données.

Cela nécessite également un moyen plus économique qui offre des efficacités d'ingénierie basées sur une architecture cloud native, un calcul et un stockage à la demande optimisés et évolutifs pour la surveillance de la fiabilité des données à fournir.

La qualité des données sans code au secours des équipes métiers

Bien que des progrès significatifs aient été réalisés pour rapprocher les données des équipes commerciales, il reste une lacune non résolue dans l'écosystème de données moderne.

Les outils actuels apportent la capacité, ils exposent également la complexité sous-jacente de l'infrastructure de données directement aux équipes commerciales.

La plupart des entreprises ont du mal à se lancer dans l'utilisation du cloud, car il n'existe pas beaucoup d'outils low-code qui facilitent le travail avec les données.

Ces outils ont souvent une bonne abstraction de la complexité des données, mais ils n'ont pas toujours une interface utilisateur alignée sur les objectifs et les objectifs spécifiques des utilisateurs.

Ce domaine prend de l'ampleur et nous voyons de nouveaux groupes apporter le code no-code/low code dans le domaine de la fiabilité des données.

De nouveaux outils pour surveiller efficacement les données Infra, les pipelines de données et la qualité et la fiabilité des données

Un large éventail d'outils réinvente le problème de la surveillance des écosystèmes de données modernes sur le cloud.

Les outils de type Data Dog et New Relic surveillent l'infrastructure de données sur le cloud. D'autres outils comme Unravel surveillent les piles de données sur le cloud.

Il existe également des outils émergents pour surveiller les pipelines de données sur le cloud. Et enfin, Qualdo-DRX est un outil de premier plan pour surveiller la qualité et la fiabilité des données, disponible en exclusivité et réinventé pour tous les clouds publics.

Avez-vous des idées à ce sujet? Faites-le nous savoir ci-dessous dans les commentaires ou transférez la discussion sur notre Twitter ou Facebook.

Recommandations des éditeurs :

  • Les ingénieurs de données peuvent donner vie aux attentes des consommateurs
  • Comment la méthodologie Agile s'applique-t-elle aux entrepôts de données ?
  • Ppts d'analyse de données volumineuses pour maîtriser la technique d'analyse avancée
  • 4 choses à savoir sur les solutions d'entreprise basées sur le cloud