¿Qué es la estructura de datos?
Publicado: 2022-02-14Se afirma que el tejido de datos es un elemento imprescindible para todas las organizaciones centradas en datos. Durante los últimos años, esta terminología ha sido bastante relevante con la gestión de datos empresariales y las integraciones de datos empresariales. Según la firma de analistas Gartner, la estructura de datos se considera una de las 10 principales tendencias de análisis y datos para 2021. Gartner también estima que para el año 2024, casi el 25 % de todos los proveedores de gestión de datos proporcionarán una solución integral de estructura de datos. Este será un gran salto desde la contribución actual del 5%.
- Definición de estructura de datos
- Necesidad de tejido de datos
- La arquitectura
- Capacidades clave
- La comparación
- Casos de uso de Data Fabric
- Ventajas de la estructura de datos
¿Qué es el tejido de datos?
Para decirlo en términos simples, la estructura de datos es una arquitectura simplificada, unificada y única que abarca un conjunto integrado de tecnologías y servicios. Esta colección se crea para entregar datos integrados y enriquecidos utilizando la metodología correcta, al cliente de datos correcto y en el momento correcto; abordar tanto el trabajo operativo como el analítico.
El tejido de datos comprende tecnologías clave de gestión de datos como: catálogo de datos, gobierno de datos, integración de datos, canalización de datos y orquestación de datos.
Fuente: Gartner Inc. y/o sus filiales
¿Por qué necesita tejido de datos?
Una razón fundamental por la que las organizaciones necesitan estructura de datos es que sirve a muchos impulsores de alineación que son de naturaleza comercial, técnica y organizacional.
Impulsores del negocio
- Para los impulsores comerciales, la estructura de datos ayuda a reducir el tiempo para acceder a los conocimientos y ayuda en un proceso más rápido de toma de decisiones informada. Esto se logra mediante la canalización de datos en almacenes de datos y lagos de datos, rápidamente.
- La estructura de datos también ayuda a proporcionar una vista de 360 grados en tiempo real de todos los aspectos de una entidad comercial, como clientes, proveedores, pedidos, entregas, productos, etc.
Conductores organizacionales
- La estructura de datos sirve como un lenguaje común entre los ingenieros de datos y los consumidores de datos, lo que ayuda a mejorar la colaboración entre los equipos comerciales y los equipos de datos.
- Hay capacidades de acceso a datos de autoservicio que permiten a los consumidores obtener los datos que necesitan, y en cualquier momento dado.
Controladores de gestión de datos
- La gestión de la preparación de datos ayuda a los científicos de datos y otros recursos de TI a evitar realizar cualquier tipo de tareas repetitivas relacionadas con el enriquecimiento, la transformación y la limpieza de datos.
- A través de la estructura de datos, uno puede obtener acceso a cualquier tipo de datos de toda la empresa utilizando cualquier método. Esto incluye el movimiento masivo de datos, la virtualización de datos e incluso las API.
- Data Fabric también agiliza e integra las herramientas actuales de gestión de datos que se utilizan en la organización y optimiza otras redundantes para mejorar la rentabilidad.
La arquitectura de Data Fabric
Una arquitectura de estructura de datos que está bien definida es de naturaleza modular y admite una implementación a gran escala que puede ser multinube, local o incluso una implementación híbrida. Para una arquitectura de estructura de datos, las fuentes de datos van desde muchos sistemas heredados que funcionan en silos hasta los entornos de nube más recientes.
El siguiente diagrama da una idea de la arquitectura de la estructura de datos
Fuente: Gartner Inc. y/o sus filiales
Los consumidores de la estructura de datos incluyen científicos y analistas de datos, analistas de marketing, analistas de ventas y recursos que trabajan en la privacidad de los datos junto con los arquitectos de la nube.
Capacidades clave de la estructura de datos
A continuación se muestra el conjunto de capacidades clave que admite Data Fabric cuando se integra en una sola plataforma unificada:
- Catálogo de datos
Categorizar, clasificar y colocar activos de datos en una estructura de inventario adecuada, presentándolos visualmente.
- Ingeniería de datos
Desarrollar canalizaciones de datos fiables con fines analíticos y operativos.
- Dato de governancia
Para garantizar la calidad de los datos y también para cumplir con las normas y protocolos sobre privacidad de datos, seguridad de datos y escalabilidad.
- Preparación de datos
Se trata de definir el proceso de flujo de datos, que también incluye pasos relacionados con la limpieza, el enriquecimiento, la transformación y la validación de datos.
- Integración de datos y entrega de datos
Esto implica extraer o recuperar datos de cualquier fuente confiable y luego ponerlos a disposición del consumidor de datos para su posterior procesamiento. Esto se hace a través de API, ETL, etc.
Más allá de las capacidades básicas mencionadas anteriormente, también hay ciertas capacidades no básicas que la estructura de datos pone sobre la mesa.
Estos son los siguientes:
- Escala, volumen y rendimiento de los datos
- Accesibilidad
- Distribución
- Seguridad
Comparación entre Data Fabric/Data Lake/Database para cargas de trabajo operativas
Para ayudarlo a comprender la importancia de la estructura de datos, veamos una comparación de los pros y los contras de varias fuentes de datos.
Varias fuentes de datos | ventajas | Contras |
---|---|---|
Lago de datos, almacén de datos | Admite consultas de datos en muchos datos estructurados y no estructurados | No es realmente óptimo para consultas de datos de entrada única que provocan respuestas lentas. No admite datos en vivo, por lo que las actualizaciones continuas de datos no son confiables. |
Sin base de datos SQL | Admite escalabilidad lineal a través de la arquitectura del almacén de datos distribuido | No es compatible con SQL, por lo que requiere habilidades especializadas. |
Tejido de datos | • Compatibilidad completa con SQL • Admite la escalabilidad lineal a través de la arquitectura del almacén de datos distribuido • Admite alta simultaneidad con rendimiento en tiempo real • Admite consultas complejas para entidades comerciales individuales • Admite todo tipo de metodología de integración • Estructura de gobierno de datos flexible y dinámica | N / A |
Si bien el tejido de datos sirve como una tecnología superior para cargas de trabajo operativas a gran escala, también es una solución que actúa como una tecnología recíproca para el lago de datos y los almacenes de datos. Para tal cantidad de cargas de trabajo de datos, una estructura de datos puede:
1. Canalice datos nuevos y confiables EN ellos, para fines de análisis fuera de línea.
2. Reciba información comercial de ellos, para integrarla en casos de uso operativos en tiempo real.
Casos de uso de Data Fabric
En las operaciones empresariales, existen múltiples casos de uso que requieren una arquitectura de datos de alta velocidad y escala que sea capaz de soportar múltiples transacciones. Estos ejemplos incluyen:
Ofrecer una vista del cliente de 360 grados
Brindar una visión integral y única de los clientes a través de sistemas CRM, IVR o un portal de autoservicio para clientes.
Cumplir con las leyes de privacidad de datos
Al adoptar un flujo de trabajo flexible y una solución de automatización de datos que cumpla con el cumplimiento entre personas, sistemas y datos.
Datos de prueba bajo demanda
Ayudar a crear un almacén de datos de prueba y compartir datos de prueba anónimos con varios centros de datos, manteniendo la integridad total
Ventajas de la estructura de datos
Hay una gran cantidad de ventajas de la estructura de datos sobre algunas de las metodologías de gestión de datos tradicionales/alternativas.
- Gestión de datos mejorada
- Servicios de datos ampliados
- Alto nivel de consistencia, disponibilidad y durabilidad
- Seguridad extremadamente estricta
- Alto rendimiento
Pensamientos finales
Equipos que no quieren tener una única solución de estructura de datos para análisis de datos y otra solución para inteligencia operativa. Por lo general, prefieren tener un solo tejido de datos para ambos.
Otros recursos útiles:
5 pasos para crear una cultura basada en datos | TechFunnel
12 consejos para desarrollar la alfabetización de datos en 2022 | Techfunnel
Centro de datos: todo lo que necesita saber | Techfunnel