Качество и надежность данных для облака — Azure, AWS и GCP
Опубликовано: 2022-07-01Святой Грааль «доверия к данным» от данных к аналитическому путешествию предприятий не совсем нов. Поскольку BI и аналитические рабочие нагрузки отделены от хранилищ данных, пропасть расширилась.
Существует еще больший разрыв между потребностями бизнеса, бизнес-операциями, поддерживаемыми ландшафтом ИТ-приложений, и надежностью данных, накопленных в хранилищах данных для бизнес-групп.
Появились концепции и инструменты для устранения пробела в виде:
- Золотая пластинка для каждого интересующего субъекта бизнеса.
- На его основе было построено управление мастер-данными — стандартизированный глоссарий того, как данные понимаются, организованы и управляются, поддерживаемый такими поставщиками, как IBM, Informatica и Talend.
- Он попытался укротить хаос путем стандартизации, изобретя бизнес-глоссарии и множество инструментов ETL для поддержки бизнес-правил, помогающих предприятиям разобраться в данных.
В этом хаосе решения и инструменты для обеспечения качества данных были глубоко запрятаны в инициативах MDM и управления данными. Тем не менее, существовали две проблемы: первая заключалась в том, чтобы заглянуть в прошлое и спросить, можно ли доверять данным.
Во-вторых, «качество» измерялось по отношению к «золотой записи» и основным данным – стандартизации, которая сама постоянно развивалась.
Надежность данных в облаке — почему и что изменилось?
Хотя ажиотаж вокруг больших данных начался с Hadoop, проблемы с объемом, скоростью и достоверностью были решены, это оставалось игрой для предприятий.
Настоящая инновация началась с систем MPP, таких как Redshift на AWS, изначально построенных в облаке, что гарантировало более высокую производительность для обработки больших наборов данных с хорошей экономикой и удобным для SQL интерфейсом.
Это, в свою очередь, стимулировало появление набора инструментов для приема данных, таких как Fivetran, которые упростили перенос данных в облако.
Эволюция инфраструктуры данных и современная экосистема данных в облаке
Сегодня данные хранятся в озерах данных в облачных файловых системах и облачных хранилищах данных, и мы видим, что это отражается в росте таких поставщиков, как Databricks и Snowflake.
Мечта об управлении данными казалась намного ближе, чем раньше.
Бизнес-командам не терпелось проанализировать и преобразовать данные в соответствии со своими потребностями, и экосистема инструментов BI эволюционировала, чтобы создать бизнес-представление о данных.
Аспект, который изменился во время этой эволюции, заключается в том, что данные перемещались из строго контролируемой и управляемой среды на Дикий Запад, поскольку различные команды преобразовывали и манипулировали данными в облачных хранилищах.
Эволюция групп данных и бизнес-групп, зависящих от инженерии данных
Дело не только в объеме и росте данных. Команды, жаждущие данных (потребители данных), также выросли в форме команд бизнес-аналитики, аналитических групп и групп по науке о данных.
На самом деле, в цифровых организациях (которые были полностью построены на облаке) даже бизнес-команды являются командами данных. Например, маркетологу нужна информация о товарном трафике в режиме реального времени для оптимизации кампаний.
Обслуживание этих специализированных и децентрализованных команд с учетом их требований и ожиданий — непростая задача.
Экосистема данных отреагировала умным ходом, положив начало инженерии данных и конвейерам как базовой единице для упаковки специализированных преобразований, объединений, агрегаций и т. д.
Реальность такова, что группы обработки данных постоянно борются со сломанными конвейерами, меняющимися схемами и форматами, которые влияют на всех потребителей данных, таких как поврежденные информационные панели BI и прогнозы мусора из моделей ML.
Это требует нового мышления в отношении создания доверия к данным, поскольку прежние показатели качества данных и подходы недостаточны.
Нам нужны показатели надежности данных, чтобы отслеживать и наблюдать за изменениями данных во всех формах (например, распределениях) и формах (изменения схемы, изменения формата), а также те, которые служат потребностям инженеров/аналитиков бизнес-аналитики и специалистов по данным.
Ключевые факторы, способствующие внедрению надежности данных небольшими предприятиями в облаке
По мере того, как предприятия переходят к самостоятельным инструментам для бизнес-аналитики (BI), анализа данных, сломанных информационных панелей и дрейфующих моделей машинного обучения, они могут быть болезненными для предприятий любого размера.
На самом деле проблема усугубляется для предприятий с небольшими группами данных, поскольку они тратят много времени на борьбу с проблемами надежности данных, которые в противном случае можно было бы использовать для раскрытия ценности данных.
Это также требует более экономичного способа, обеспечивающего инженерную эффективность на основе облачной архитектуры, оптимизированных и масштабируемых вычислительных ресурсов и хранилища по запросу для обеспечения мониторинга надежности данных.
Качество данных без кода в помощь бизнес-командам
Несмотря на то, что был достигнут значительный прогресс в предоставлении данных бизнес-командам, в современной экосистеме данных остается нерешенный пробел.
Текущие инструменты предоставляют возможности, они также раскрывают базовую сложность инфраструктуры данных непосредственно бизнес-группам.
Большинству предприятий сложно начать работу с облаком, потому что не так много инструментов с низким кодом, упрощающих работу с данными.
Эти инструменты часто хорошо абстрагируются от сложности данных, но не всегда имеют пользовательский интерфейс, соответствующий конкретным целям и задачам пользователей.
Эта область набирает обороты, и мы видим новые группы, предлагающие код без кода/низкий код в области надежности данных.
Новые инструменты для эффективного мониторинга данных Infra, конвейеров данных и качества данных + надежности
Широкий спектр инструментов переосмысливает проблему мониторинга современных экосистем данных в облаке.
Инструменты, подобные Data Dog и New Relic, отслеживают инфраструктуру данных в облаке. Другие инструменты, такие как Unravel, отслеживают стеки данных в облаке.
Также появляются инструменты для мониторинга конвейеров данных в облаке. И, наконец, Qualdo-DRX — это ведущий инструмент для мониторинга качества и надежности данных, доступный исключительно и переосмысленный для всех публичных облаков.
Есть какие-нибудь мысли по этому поводу? Дайте нам знать внизу в комментариях или перенесите обсуждение в наш Twitter или Facebook.
Рекомендации редакции:
- Инженеры данных могут воплотить в жизнь ожидания потребителей
- Как методология Agile применяется к хранилищам данных?
- Аналитика больших данных Ppts для освоения методов расширенной аналитики
- 4 вещи, которые нужно знать об облачных корпоративных решениях