Data Fabric против Data Mesh: разница
Опубликовано: 2022-03-14В поисках наилучшей архитектуры данных для текущих и будущих требований организации существует множество вариантов, на которые могут пойти предприятия. Из-за упаковки структуры программного обеспечения у организаций есть из чего выбирать. Предприятиям может быть трудно выбрать правильный вариант, поэтому в последнее время из пасти появились шаблоны, позволяющие организациям помочь им в управлении данными, включая структуры данных и сетку данных.
Во-первых, и структура данных, и база данных отражают сходство с концептуальной точки зрения. Сетки обычно изготавливаются из тканей, и им можно придать различную форму в соответствии с требованиями. Это позволяет ИТ-отделам размещать эти сетки поверх других систем, которые постоянно находятся в процессе обработки данных.
Какими бы похожими ни выглядели оба этих подхода, есть некоторые явные различия, которые можно заметить, только если мы углубимся в эти два подхода.
Что такое фабрика данных
Первое определение структуры данных появилось в середине 200-х годов, когда Ноэль Юханна, аналитик из Forrester, был первым, кто это сделал. С концептуальной точки зрения фабрика данных — это основанный на метаданных способ подключения разнообразного набора инструментов обработки данных. Цель состоит в том, чтобы устранить основные болевые точки в некоторых проектах по работе с большими данными не только комплексно, но и в рамках модели самообслуживания. Существуют различные возможности, предоставляемые решениями Data Fabric, такие как доступ к данным, обнаружение, преобразование, интеграция, управление, происхождение и безопасность.
Существует значительный темп развития концепции структуры данных. Это помогает упростить процесс доступа к данным и управления ими в растущей гетерогенной среде. Гетерогенная среда включает в себя хранилища транзакционных и операционных данных, озера данных, хранилища данных и дома-озера. Мы наблюдаем растущее число организаций, которые разрабатывают хранилища данных, и из-за облачных вычислений проблема, связанная с диверсификацией данных, становится все больше и больше.
Имея единую фабрику данных, размещенную поверх репозиториев данных, предприятие может упаковать ее в форме унифицированного управления для различных источников данных, включая нижестоящих потребителей данных, таких как ученые, инженеры данных и аналитики данных. Однако следует отметить, что унифицировано управление данными, а не фактическое хранилище. Фактическое хранилище по-прежнему остается в распределенной модели. Многие поставщики, такие как Informatica и Talend, предоставляют фабрику данных с описанными выше возможностями.
Что такое сетка данных
В то время как сетка данных решает большинство проблем, которые решает фабрика данных, например, проблема управления данными в гетерогенной среде. Однако метод обработки и решения этой проблемы отличается в подходе сетки данных. В то время как структура данных создает единый уровень виртуального управления поверх хранилища данных, в котором хранятся распределенные данные, подход с сеткой данных больше касается распределенной группы команд, которые будут управлять данными в соответствии с требованиями, несмотря на наличие некоторых протоколов управления.
Концепция сетки данных была определена Жамаком Дехгани. Жамак — директор технологического инкубатора Thoughtworks North America. Фундаментальный принцип, лежащий в основе подхода сетки данных при устранении несовместимости между озером данных и хранилищем данных. Хранилище данных первого поколения предназначено для хранения больших объемов структурированных данных, которые в основном используются аналитиками данных.
Однако озеро данных второго поколения используется для хранения огромных объемов неструктурированных данных, которые преимущественно используются для построения прогнозных моделей машинного обучения. В этом определении Жамак объяснил о хранилище данных третьего поколения (известном как Kappa), которое полностью связано с потоками данных в реальном времени за счет внедрения облачных сервисов. Однако это не устраняет разрыв между системами первого и второго поколения с точки зрения использования.
В процессе обеспечения синхронизации данных многие предприятия разрабатывают и поддерживают полный конвейер данных ETL. В результате это создает потребность в чрезвычайно специализированных инженерах по данным, которые обладают компетенцией для поддержания работы таких систем.
Критический момент, который выдвинул Жамак, касался проблемы, заключающейся в том, что преобразование данных не может быть встроено в данные инженерами. Наоборот, это должно быть что-то вроде фильтра, применяемого к общему набору данных, который доступен всем пользователям.
Таким образом, вместо разработки сложного конвейера данных ETL данные хранятся в исходной форме. Право собственности на данные берет на себя команда, состоящая из экспертов в предметной области. Архитектура нового подхода к сетке данных, объясненная Жамаком, состоит из следующих характеристик:
- Владение децентрализованными данными и архитектурой на основе домена
- Данные как продукт
- Платформа инфраструктуры данных предлагается в модели самообслуживания
- Федеративное управление вычислениями
В двух словах, подход с сеткой данных определяет, что только озера данных обладают гибкостью и масштабируемостью для удовлетворения требований аналитики.
Сетка данных против структуры данных
Как мы заметили выше, между сеткой данных и подходом к фабрике данных есть много общего. Однако давайте также посмотрим на различия между ними.
По словам Ноэля Юханна, аналитика из Forrester, основное различие между сеткой данных и подходом к фабрике данных заключается в способе обработки API.
Сетка данных в первую очередь основана на API для разработчиков, а структура данных — нет. Структура данных, по сути, противоположна сетке данных, где разработчики будут писать код для API для интерфейса приложения. В отличие от сетки данных, фабрика данных — это метод без кода или с малым количеством кода, при котором интеграция API выполняется в фабрике без ее непосредственного использования.
По словам другого аналитика, Джеймса Серра, который работает в Ernst & Young в качестве архитектора больших данных и хранилищ данных, разница между сеткой данных и структурой данных заключается в типе пользователей, которые к ним обращаются.
Сетка данных и структура данных обеспечивают доступ к данным с помощью различных технологий и платформ. Разница в том, что структура данных больше ориентирована на технологии, а сетка данных больше зависит от организационных изменений.
По словам аналитика Eckerson Group Дэвида Уэллса, предприятие может одновременно использовать сетку данных, фабрику данных и даже концентратор данных. Далее Уэллс добавляет, что эти два понятия являются технически не исключающими друг друга.
Продукты Data Fabric в основном разрабатываются на основе шаблонов производственного использования, тогда как продукты Data Mesh разрабатываются с учетом бизнес-доменов. Обнаружение метаданных является непрерывным, и анализ представляет собой непрерывный процесс в случае Data Fabric, в то время как в случае сетки данных метаданные работают в локализованной бизнес-области и являются статическими по своей природе.
С точки зрения развертывания фабрика данных использует текущую доступную инфраструктуру, тогда как сетка данных экстраполирует текущую инфраструктуру с новыми развертываниями в бизнес-доменах.
И сетка данных, и фабрика данных находят свое место в зале заседаний совета директоров, занимающемся большими данными. Когда дело доходит до поиска правильного архитектурного каркаса или архитектуры.
Другие полезные ресурсы:
5 шагов для создания культуры, основанной на данных | TechFunnel
Что такое аналитика больших данных? Руководство для начинающих | Техническая воронка
Почему культура, основанная на данных, имеет решающее значение для цифровой трансформации
Интеллектуальный анализ данных — все, что вам нужно знать | Техническая воронка