Качество и надежность данных для облака — Azure, AWS и GCP

Опубликовано: 2022-07-01

Святой Грааль «доверия к данным» от данных к аналитическому путешествию предприятий не совсем нов. Поскольку BI и аналитические рабочие нагрузки отделены от хранилищ данных, пропасть расширилась.

Существует еще больший разрыв между потребностями бизнеса, бизнес-операциями, поддерживаемыми ландшафтом ИТ-приложений, и надежностью данных, накопленных в хранилищах данных для бизнес-групп.

Появились концепции и инструменты для устранения пробела в виде:

Золотая пластинка для каждого интересующего субъекта бизнеса.

На его основе было построено управление мастер-данными — стандартизированный глоссарий того, как данные понимаются, организованы и управляются, поддерживаемый такими поставщиками, как IBM, Informatica и Talend.

Он попытался укротить хаос путем стандартизации, изобретя бизнес-глоссарии и множество инструментов ETL для поддержки бизнес-правил, помогающих предприятиям разобраться в данных.

В этом хаосе решения и инструменты для обеспечения качества данных были глубоко запрятаны в инициативах MDM и управления данными. Тем не менее, существовали две проблемы: первая заключалась в том, чтобы заглянуть в прошлое и спросить, можно ли доверять данным.

Во-вторых, «качество» измерялось по отношению к «золотой записи» и основным данным – стандартизации, которая сама постоянно развивалась.

Надежность данных в облаке — почему и что изменилось?

Хотя ажиотаж вокруг больших данных начался с Hadoop, проблемы с объемом, скоростью и достоверностью были решены, это оставалось игрой для предприятий.

Настоящая инновация началась с систем MPP, таких как Redshift на AWS, изначально построенных в облаке, что гарантировало более высокую производительность для обработки больших наборов данных с хорошей экономикой и удобным для SQL интерфейсом.

Это, в свою очередь, стимулировало появление набора инструментов для приема данных, таких как Fivetran, которые упростили перенос данных в облако.

Эволюция инфраструктуры данных и современная экосистема данных в облаке

Сегодня данные хранятся в озерах данных в облачных файловых системах и облачных хранилищах данных, и мы видим, что это отражается в росте таких поставщиков, как Databricks и Snowflake.

Мечта об управлении данными казалась намного ближе, чем раньше.

Бизнес-командам не терпелось проанализировать и преобразовать данные в соответствии со своими потребностями, и экосистема инструментов BI эволюционировала, чтобы создать бизнес-представление о данных.

Аспект, который изменился во время этой эволюции, заключается в том, что данные перемещались из строго контролируемой и управляемой среды на Дикий Запад, поскольку различные команды преобразовывали и манипулировали данными в облачных хранилищах.

Эволюция групп данных и бизнес-групп, зависящих от инженерии данных

Дело не только в объеме и росте данных. Команды, жаждущие данных (потребители данных), также выросли в форме команд бизнес-аналитики, аналитических групп и групп по науке о данных.

На самом деле, в цифровых организациях (которые были полностью построены на облаке) даже бизнес-команды являются командами данных. Например, маркетологу нужна информация о товарном трафике в режиме реального времени для оптимизации кампаний.

Обслуживание этих специализированных и децентрализованных команд с учетом их требований и ожиданий — непростая задача.

Экосистема данных отреагировала умным ходом, положив начало инженерии данных и конвейерам как базовой единице для упаковки специализированных преобразований, объединений, агрегаций и т. д.

Реальность такова, что группы обработки данных постоянно борются со сломанными конвейерами, меняющимися схемами и форматами, которые влияют на всех потребителей данных, таких как поврежденные информационные панели BI и прогнозы мусора из моделей ML.

Это требует нового мышления в отношении создания доверия к данным, поскольку прежние показатели качества данных и подходы недостаточны.

Нам нужны показатели надежности данных, чтобы отслеживать и наблюдать за изменениями данных во всех формах (например, распределениях) и формах (изменения схемы, изменения формата), а также те, которые служат потребностям инженеров/аналитиков бизнес-аналитики и специалистов по данным.

Ключевые факторы, способствующие внедрению надежности данных небольшими предприятиями в облаке

менеджер паролей icloud на windows — Изображение: KnowTechie

По мере того, как предприятия переходят к самостоятельным инструментам для бизнес-аналитики (BI), анализа данных, сломанных информационных панелей и дрейфующих моделей машинного обучения, они могут быть болезненными для предприятий любого размера.

На самом деле проблема усугубляется для предприятий с небольшими группами данных, поскольку они тратят много времени на борьбу с проблемами надежности данных, которые в противном случае можно было бы использовать для раскрытия ценности данных.

Это также требует более экономичного способа, обеспечивающего инженерную эффективность на основе облачной архитектуры, оптимизированных и масштабируемых вычислительных ресурсов и хранилища по запросу для обеспечения мониторинга надежности данных.

Качество данных без кода в помощь бизнес-командам

Несмотря на то, что был достигнут значительный прогресс в предоставлении данных бизнес-командам, в современной экосистеме данных остается нерешенный пробел.

Текущие инструменты предоставляют возможности, они также раскрывают базовую сложность инфраструктуры данных непосредственно бизнес-группам.

Большинству предприятий сложно начать работу с облаком, потому что не так много инструментов с низким кодом, упрощающих работу с данными.

Эти инструменты часто хорошо абстрагируются от сложности данных, но не всегда имеют пользовательский интерфейс, соответствующий конкретным целям и задачам пользователей.

Эта область набирает обороты, и мы видим новые группы, предлагающие код без кода/низкий код в области надежности данных.

Новые инструменты для эффективного мониторинга данных Infra, конвейеров данных и качества данных + надежности

Широкий спектр инструментов переосмысливает проблему мониторинга современных экосистем данных в облаке.

Инструменты, подобные Data Dog и New Relic, отслеживают инфраструктуру данных в облаке. Другие инструменты, такие как Unravel, отслеживают стеки данных в облаке.

Также появляются инструменты для мониторинга конвейеров данных в облаке. И, наконец, Qualdo-DRX — это ведущий инструмент для мониторинга качества и надежности данных, доступный исключительно и переосмысленный для всех публичных облаков.

Есть какие-нибудь мысли по этому поводу? Дайте нам знать внизу в комментариях или перенесите обсуждение в наш Twitter или Facebook.