Зачем цифровому бизнесу нужен каталог данных?

Предприятия испытывают потребность в улучшенных инструментах, которые позволяли бы выстраивать обучение и совместную работу вокруг источников данных. Каталоги данных с функциями машинного обучения помогают извлекать из ценных данных максимальную пользу.

Успех в цифровом бизнесе невозможен без эффективной стратегии работы с данными. Как ее сформировать, а затем воплотить в жизнь, обсудили участники конференции «Качество данных 2020», которую провело издательство «Открытые системы». Независимо от того, насколько убедительны бизнес-аргументы или талантлива команда разработчиков, без консолидированных качественных данных любые проекты цифровой трансформации обречены на провал.

Реляционные базы данных, озера данных и хранилища NoSQL являются мощными средствами, позволяющими выполнять операции сбора, обновления, поиска, выборки и обработки данных. Вместе с тем они, как ни странно, обычно не предоставляют инструментов и интерфейсов, позволяющих организовать совместное использование того, что находится внутри них. Соответствующие ресурсы зачастую больше похожи на сейфы для данных. Известно, что внутри находятся ценные сведения, но простого способа получить доступ к ним снаружи не существует.

Бизнесу приходится иметь дело с множеством самых разных хранилищ данных: многочисленными корпоративными базами данных, небольшими информационными складами, ЦОДами, облаками, приложениями, инструментами бизнес-анализа, API, электронными таблицами и открытыми источниками данных.

Конечно, метаданные для таблиц, хранимых процедур, индексов и других объектов базы данных можно получить с помощью запроса к реляционной базе данных, составив таким образом ее каталог. Но такой подход отнимает много времени, требует хорошей технической подготовки и позволяет получить только базовый список из одного источника данных.

Можно использовать инструменты для обратного проектирования моделей данных или навигации по метаданным. Но они, как правило, предназначены для технических специалистов и служат главным образом для аудита, документирования и анализа баз данных.

Другими словами, возможностей запросов и инструментов, извлекающих метаданные, для удовлетворения имеющихся потребностей бизнеса сегодня явно недостаточно. Обусловлено это следующими причинами:

cуществующие технологии требуют очень хорошей технической подготовки и вряд ли могут эффективно использоваться конечными пользователями;
предприятиям, которые оперируют множеством баз с большими данными, различными технологиями баз данных и гибридными облаками, слишком много операций придется выполнять вручную;
имеющиеся подходы не особенно полезны для исследователей данных, желающих наладить совместную работу и проводить эксперименты с машинным обучением, используя первичные и производные наборы данных;
стратегия аудита метаданных не упрощает командам, осуществляющим управление данными, переход к методам активного управления.

Единый достоверный источник сведений об информационных активах организации

Каталоги данных существуют уже достаточно давно и приобретают все более стратегический характер, поскольку организации масштабируют платформы больших данных, инвестируют в программы исследования данных и машинного обучения, а также стараются поддерживать управляемое данными поведение.

Первое, что нужно знать о каталогах данных: это инструменты, помогающие всей организации обучаться и взаимодействовать на основе источников данных. В организациях, которые пытаются ориентироваться на данные, экспериментировать с машинным обучением и использовать встроенные средства анализа в приложениях управления взаимоотношениями с клиентами, им отводится очень важная роль.

Ответственность за интеграцию каталогов данных с основными источниками данных предприятия возлагается на инженеров по данным, разработчиков программного обеспечения и других технических специалистов. Именно они чаще всего обращаются к каталогу данных и видоизменяют его, особенно в процессе создания и модификации баз данных.

Каталоги данных, взаимодействующие с большей частью массивов данных предприятия, представляют собой единый источник достоверной информации. Они помогают ответить на вопросы о том, какие данные существуют у предприятия, где найти наилучшие источники данных, как защитить данные и кто обладает необходимым для этого опытом. Каталог данных включает в себя инструменты для обнаружения источников данных, получения метаданных для этих источников, выполнения поиска и управления метаданными.

Многие каталоги данных выходят за рамки понятия структурированного справочника, описывая связи между источниками данных, сущностями и объектами. Большинство каталогов отслеживают различные классы метаданных, особенно в части конфиденциальности и безопасности. Они позволяют получить и совместно использовать информацию о том, как различные люди, подразделения и приложения используют источники данных. Большинство каталогов данных включают также инструменты для определения словарей данных, для профилирования и очистки данных, а также для выполнения других сервисных операций. Специализированные каталоги данных предоставляют также возможности управления основными данными и получения информации о происхождении данных.

Продукты и сервисы каталогов данных

На рынке сегодня присутствует достаточно много инструментов и платформ для ведения каталогов данных. Некоторые из них представляют собой расширение какой-то другой инфраструктуры и функций управления корпоративными данными. Другие открывают возможности нового поколения и ориентированы на простоту использования, взаимодействие и дифференциацию машинного обучения. В конечном итоге выбор будет зависеть от масштабов, уровня квалификации пользователей, стратегии исследования данных, архитектуры данных и других требований, предъявляемых организацией.

Приведем примеры продуктов для ведения каталогов данных.

Azure Data Catalog и AWS Glue – сервисы каталогизации данных, встроенные в платформы публичного облака.
Функции каталога данных поддерживают многие платформы для интеграции данных, в том числе Informatica Enterprise Data Catalog, Talend Data Catalog, SAP Data Hub и IBM Infosphere Information Governance Catalog.
Некоторые каталоги данных предназначены для платформ больших данных и гибридных облаков. К ним относятся, в частности, Cloudera Data Platform и InfoWorks DataFoundry, поддерживающие операции с данными и их настройку.
Существуют автономные платформы с функциями машинного обучения: Unifi Data Catalog, Alation Data Catalog, Collibra Catalog, Waterline Data и IBM Watson Knowledge Catalog.
Инструменты для управления основными данными (например, Stibo Systems и Reltio), а также платформы клиентских данных (Arm Treasure Data) также могут использоваться в качестве каталогов данных.

Машинное обучение для лучшего понимания данных

Функции автоматизации процесса обнаружения данных, осуществления поиска в репозитарии и предоставления инструментов для взаимодействия относятся к числу базовых. Более развитые каталоги поддерживают функции машинного обучения, обработки естественного языка и программирования с написанием минимального объема кода.

Функции машинного обучения могут принимать различные формы, зависящие от платформы. Unifi, к примеру, имеет встроенный функционал рекомендаций, который анализирует, как люди используют, объединяют и маркируют первичные и производные наборы данных. Проанализировав характер использования, компоненты машинного обучения выдают рекомендации другим пользователям в момент, когда они обращаются с запросом к аналогичным данным и шаблонам. В Unifi применяются также алгоритмы машинного обучения для профилирования данных, выявления конфиденциальной идентификационной информации личного характера и маркировки источников данных.

Collibra использует машинное обучение, чтобы помочь администраторам классифицировать данные. Компонент Automatic Data Classification анализирует новые наборы данных и сопоставляет их с 40 уже имеющимися классификаторами – адресов, финансовой информации и идентификаторов продуктов.

Waterline Data использует патентованную технологию отпечатков, которая автоматизирует обнаружение, классификацию и управление корпоративными данными. Одним из направлений является идентификация и маркировка конфиденциальных данных, которая, как утверждается, сокращает время, требуемое для маркировки, на 80%.

У разных платформ имеются разные стратегии и технические возможности для обработки данных. Некоторые из них функционируют только на уровне каталога данных и метаданных, в то время как другие поддерживают расширенные функции подготовки данных, их интеграции, очистки и других операций с данными.

Корпоративная система обработки и настройки данных InfoWorks Data Foundry непосредственно интегрирована с алгоритмами машинного обучения. Интерфейс визуального программирования, требующий написания минимального объема программного кода, позволяет конечным пользователям объединить данные с алгоритмами машинного обучения: кластеризацией k-means и классификацией по алгоритму случайных лесов.

Сегодня мы находимся на ранней стадии разработки активных платформ и каталогов данных, обеспечивающих управление, расширяющих операционные возможности и содержащих исследовательские инструменты для предприятий с растущими объемами данных. По мере роста ценности данных и их анализа, у организаций возникает потребность в их масштабировании и управлении ими. Одной из тех областей, в которых различные платформы каталогов данных будут конкурировать друг с другом, вероятно, станет машинное обучение.