Calidad y confiabilidad de los datos para la nube: Azure, AWS y GCP
Publicado: 2022-07-01El santo grial de la "confianza en los datos" desde los datos hasta el viaje de conocimiento de las empresas no es del todo nuevo. Dado que las cargas de trabajo analíticas y de BI están separadas de los almacenes de datos, el abismo se ha ampliado.
Existe una brecha aún mayor entre las necesidades comerciales, las operaciones comerciales respaldadas por el panorama de aplicaciones de TI y la confiabilidad de los datos acumulados en los almacenes de datos para los equipos comerciales.
Surgieron conceptos y herramientas para abordar la brecha en forma de:
- Disco de oro para cada entidad comercial que sea de interés.
- Se basó en la gestión de datos maestros, estandarizando el glosario sobre cómo se entienden, organizan y rigen los datos, con el apoyo de proveedores como IBM, Informatica y Talend.
- Intentó domar el caos mediante la estandarización mediante la invención de glosarios comerciales y toneladas de herramientas ETL para respaldar las reglas comerciales y ayudar a las empresas a dar sentido a los datos.
En este caos, las soluciones y herramientas de calidad de datos quedaron profundamente enterradas en MDM e iniciativas de gobierno de datos. Aún así, existían dos desafíos: el primero era mirar hacia el pasado mientras se preguntaba si los datos eran confiables.
En segundo lugar, la 'calidad' se midió con respecto al registro de oro y los datos maestros: la estandarización, que en sí misma estaba en constante evolución.
Fiabilidad de los datos en la nube: ¿por qué y qué ha cambiado?
Si bien la exageración de los grandes datos comenzó con Hadoop, se abordaron las preocupaciones con el volumen, la velocidad y la veracidad, esto siguió siendo un juego empresarial.
La verdadera innovación comenzó con sistemas MPP como Redshift en AWS creados en la nube de forma nativa, lo que garantizó un mayor rendimiento para manejar conjuntos de datos masivos con una buena economía y una interfaz compatible con SQL.
Esto, a su vez, impulsó un conjunto de herramientas de ingestión de datos como Fivetran, que facilitó la transferencia de datos a la nube.
Evolución de la infraestructura de datos y el ecosistema de datos moderno en la nube
Hoy en día, los datos se almacenan en lagos de datos en sistemas de archivos en la nube y almacenes de datos en la nube, y vemos esto reflejado en el crecimiento de proveedores como Databricks y Snowflake.
El sueño de estar basado en datos parecía mucho más cercano que antes.
Los equipos comerciales estaban ansiosos por analizar y transformar los datos según sus necesidades, y el ecosistema de herramientas de BI evolucionó para crear la visión comercial de los datos.
El aspecto que cambió debajo y a lo largo de esta evolución es que los datos se movieron de un entorno estrictamente controlado y gobernado al salvaje oeste a medida que varios equipos transformaban y manipulaban datos en los almacenes de la nube.
Evolución de los equipos de datos y los equipos de negocio dependientes de la ingeniería de datos
No es solo el volumen y el crecimiento de los datos. Los equipos hambrientos de datos (consumidores de datos) también se han disparado en forma de equipos de BI, equipos analíticos y equipos de ciencia de datos.
De hecho, en las organizaciones nativas digitales (que se construyeron puramente en la nube), incluso los equipos comerciales son equipos de datos. Por ejemplo, un especialista en marketing quiere información en tiempo real sobre el tráfico de productos para optimizar las campañas.
Atender a estos equipos especializados y descentralizados con sus requerimientos y expectativas no es tarea fácil.
El ecosistema de datos respondió con un movimiento inteligente, marcando el comienzo de la ingeniería de datos y las canalizaciones como una unidad básica para empaquetar las transformaciones especializadas, uniones, agregaciones, etc.
La realidad es que los equipos de datos libran constantemente la batalla de canalizaciones rotas, esquemas cambiantes y formatos que afectan a todos los consumidores de datos, como tableros de BI dañados y predicciones basura de modelos de ML.
Esto requiere un nuevo pensamiento en torno a la creación de confianza en los datos, mientras que las métricas y los enfoques de calidad de datos anteriores son insuficientes.
Necesitamos métricas de confiabilidad de datos para monitorear y observar los cambios en los datos en todas las formas (por ejemplo, distribuciones) y formas (cambios de esquema, cambios de formato) y las que satisfacen las necesidades de los ingenieros/analistas de BI y científicos de datos.
Factores clave que ayudan a la adopción de la confiabilidad de los datos entre las empresas más pequeñas en la nube
A medida que las empresas avanzan hacia herramientas de autoservicio para la inteligencia comercial (BI), el análisis de datos, los tableros rotos y los modelos de aprendizaje automático a la deriva pueden ser dolorosos para las empresas de todos los tamaños.
De hecho, el problema se acentúa para las empresas con equipos de datos más pequeños, ya que pasan mucho tiempo luchando contra los problemas de confiabilidad de los datos, que de otro modo podrían utilizarse para desbloquear el valor de los datos.
Esto también requiere una forma más económica que brinde eficiencias de ingeniería basadas en una arquitectura nativa de la nube, computación y almacenamiento bajo demanda optimizados y escalables para brindar monitoreo de confiabilidad de datos.
Calidad de datos sin código al rescate de los equipos empresariales
Si bien se ha logrado un progreso significativo para acercar los datos a los equipos de negocios, aún queda una brecha sin resolver en el ecosistema de datos moderno.
Las herramientas actuales brindan la capacidad, también exponen la complejidad subyacente de la infraestructura de datos directamente a los equipos comerciales.
A la mayoría de las empresas les resulta difícil comenzar a usar la nube porque no hay muchas herramientas de código bajo que faciliten el trabajo con datos.
Estas herramientas a menudo tienen una buena abstracción de la complejidad de los datos, pero no siempre tienen una interfaz de usuario que esté alineada con los objetivos y propósitos específicos de los usuarios.
Esta área está cobrando fuerza y estamos viendo nuevos grupos que traen el código bajo/sin código en el área de confiabilidad de datos.
Nuevas herramientas para monitorear de manera efectiva la infraestructura de datos, las canalizaciones de datos y la calidad y confiabilidad de los datos
Un amplio espectro de herramientas está reimaginando el problema de monitorear los ecosistemas de datos modernos en la nube.
Las herramientas similares a Data Dog y New Relic monitorean la infraestructura de datos en la nube. Otras herramientas como Unravel, monitorean pilas de datos en la nube.
También están surgiendo herramientas para monitorear las canalizaciones de datos en la nube. Y finalmente, Qualdo-DRX es una herramienta líder para monitorear la calidad y confiabilidad de los datos, disponible exclusivamente y rediseñada para todas las nubes públicas.
¿Tiene alguna idea sobre esto? Háganos saber a continuación en los comentarios o lleve la discusión a nuestro Twitter o Facebook.
Recomendaciones de los editores:
- Los ingenieros de datos pueden hacer realidad las expectativas de los consumidores
- ¿Cómo se aplica la metodología Agile a los almacenes de datos?
- Análisis de Big Data Ppts para dominar la técnica de análisis avanzado
- 4 cosas que debe saber sobre las soluciones empresariales habilitadas para la nube