Вестник цифровой трансформации CIO.RU

ВТБ: цифровая трансформация начинается с порядка в данных
ВТБ: цифровая трансформация начинается с порядка в данных

Светлана Бова: «Просвещение — важная миссия, которая должна быть в центре внимания любого CDO»


10:47 04.02.2020  |  Николай Смирнов | 5024 просмотров



Светлана Бова, CDO и управляющий директор — вице-президент банка ВТБ, — о наведении порядка в корпоративных данных. Первыми шагами масштабной программы стали внедрение системы управления данными и построение бизнес-глоссария.

Опорной точкой при реализации любых цифровых инициатив являются данные. Практически все компании осознают это — не случайно проекты, направленные на управление данными, становятся все более распространенными, особенно в крупных организациях.

Ситуация существенно усложняется, когда речь идет о компаниях, в процессе своего развития столкнувшихся с поглощениями других бизнесов. Инвестировать огромные средства в унификацию унаследованного ИТ-ландшафта готовы далеко не все. Однако проблема с данными в этих условиях становится вдвойне критичной, и решать ее необходимо.

Как управлять данными такого гиганта, как ВТБ? Светлана Бова, CDO (Chief Data Officer), управляющий директор — вице-президент банка ВТБ и номинант на премию CDO Award 2020, рассказывает об используемых подходах и первых результатах.

— В чем суть реализуемого ВТБ проекта?

В конце прошлого года в рамках программы трансформации ВТБ мы запустили инициативу по управлению данными. В ходе ее проработки и конкретизации идей, которые мы собираемся реализовывать, были обозначены три направления работ. Первым из них стало внедрение функции Data Governance, вторым — построение архитектуры для работы с большими данными. Третье направление — это модернизация платформы данных, рефакторинг хранилищ, которые мы исторически унаследовали при слиянии ВТБ с Банком Москвы и ВТБ24, и создание целевого единого хранилища данных. Эта программа рассчитана на три года.

Суть направления Data Governance заключается в разработке стратегии управления данными и внедрении функционально-ролевой модели участников процесса управления данными. В мировой терминологии такой подход известен как data stewardship — парадигма концепции владения данными: каждое подразделение обладает ответственностью за определенную область данных, а потребители могут запрашивать данные и выставлять свои требования к ним — к их качеству, доступности, актуальности, скорости доставки.

— Каковы первые шаги?

Мы начинаем с фундамента: выстраиваем бизнес-глоссарий — репозиторий терминов, которыми банк оперирует в своей деятельности. По предварительным расчетам, уникальных терминов в банке больше 12 тысяч. При таком объеме сделать даже «перепись населения» — довольно трудоемкая задача. А вести вручную и поддерживать в актуальном состоянии весь список терминов практически невозможно. Поэтому мы инициировали проект по внедрению специализированного промышленного решения Data Governance на базе решения Informatica Axon. В рамках проекта за семь месяцев было развернуто три модуля, первым из которых и стал бизнес-глоссарий. Сейчас производится его поэтапное заполнение: на данный момент в нем около 800 терминов, в дальнейшем планируем добавлять по 1,5–2 тыс. атрибутов в год. Это достаточно трудоемкий процесс: мало найти термин и нормативную базу — важно согласовать его между подразделениями, обеспечить его одинаковое понимание и единообразное описание.

Бизнес-глоссарий по сути стал «навигатором по данным». Пользователь, осуществляя поиск термина в бизнес-глоссарии, получает четкий маршрут и ответы на вопросы:

  • Что означает запрашиваемый термин?
  • Кто за него отвечает, являясь владельцем данного атрибута?
  • В каких ИТ-системах атрибут встречается в ландшафте банка?
  • Какие требования к его качеству выставляются и какие проверки качества данных для него существуют?

Также отдельным компонентом является Enterprise Data Catalog, позволяющий осуществлять связь между бизнес-термином и его физическим расположением в ИТ-системах с визуализацией потоков данных между ИТ-системами. Данный инструмент крайне полезен для ускорения производственного цикла разработки прикладного ПО, а также для обучения новых специалистов при погружении в специфику ИТ-ландшафта.

Третий важный модуль касается мониторинга качества данных. Мы ввели специальные метрики и с их помощью начали качественно замерять уровень «здоровья данных». Уже в текущем году приступили к разработке системы мотивации и KPI по качеству данных.

— Почему в банке решили заняться вопросами управления данными? Что не устраивало в существующей ситуации?

После объединения банков подверглись слиянию ИТ-ландшафты, нормативные базы и процессы, поэтому возникла необходимость систематизировать знания о данных, поскольку поиск информации занимал довольно много времени. Кроме того, очень длительным было, например, согласование несколькими подразделениями одного и того же показателя, получаемого из различных витрин и отчетов разных хранилищ данных. Хотелось значительно сократить сроки получения аналитики и выверки отчетности.

За долгие годы во всех банках, вошедших в состав обновленного ВТБ, было реализовано множество разрозненных аналитических проектов. В итоге появились различные витрины данных для расчета одних и тех же показателей в интересах разных подразделений. Подобное дублирование информации в масштабах банка обходилось дорого. И чем больше систем появлялось, тем больше затрат требовалось на их поддержку.

Кроме всего прочего, колоссальное время занимал анализ причинно-следственных связей при разборе инцидентов с данными. Исходя из своего предыдущего опыта, могу с уверенностью сказать, что при наличии Data Governance и автоматического выполнения data lineage (визуализации потоков данных между системами с шагами преобразований данных) затраты на анализ инцидентов с данными сокращаются на 40%. Примерно на столько же сокращается фаза анализа в проектах реализации нового функционала информационных систем — просто за счет наличия актуальной карты потоков данных.

— Этот проект не только технологический — у него достаточно сложная организационная составляющая. Масштаб предполагаемых изменений очень велик. Как заставить меняться такого тяжеловеса?

Как известно, слона рекомендуется есть по частям. Можно выделить несколько шагов. Во-первых, был создан коллегиальный орган с делегированием в него представителей высокого уровня от каждой вертикали для погружения в тематику и совместной проработки целей и задач, а также для расчета бизнес-эффекта проекта. Особое внимание мы уделили формированию перечня конкретных локальных проблем каждого подразделения, связанных с данными, которые используются в его работе. Люди должны были почувствовать практическую ценность от внедрения инициативы по управлению данными. Был составлен список практических кейсов, касающихся качества данных, их доставки, унификации терминологии показателей отчетности. Мы ранжировали эти задачи и выбрали для первого внедрения в рамках бизнес-глоссария три кейса от различных подразделений.

Затем перешли к изменениям в процессной части, так как мало провести разовую инвентаризацию актива — крайне необходимо вплести практики управления данными в процессы изменений продуктов, процессов, ИТ-ландшафта банка. Нам предстоит внести изменения в модель производства ИТ-решений, реализовать порядок взаимодействия подразделений при анализе и решении инцидентов качества данных.

И наконец, еще одна важная миссия, которая должна быть в центре внимания любого CDO, — просвещение. В разных подразделениях разный уровень компетенций, да и необходимость в новых знаниях не всегда бывает очевидной. Так как тема новая и вообще концепция Data Governance еще не сильно распространена в России, мы сделали очень неплохой курс очного и дистанционного обучения. Теперь каждый сотрудник может повысить свой уровень компетенций в области управления данными.

Также мы наладили выпуск регулярного внутреннего новостного дайджеста «Всё о данных», где публикуем интересные факты из мировой практики в области работы с данными, а также информацию о внутрибанковских проектах, касающихся работы по гармонизации данных. Так мы вносим свой вклад в формирование культуры и распространение знаний об управлении данными.

— С какими проблемами пришлось столкнуться при реализации проекта? И каких было больше — организационных или технологических?

Конечно же, организационных проблем было больше. С технологиями всегда проще.

Уровень зрелости в подразделениях изначально был различным, и это осложнило ход реализации проекта, ведь программу вовлечения участников пришлось дифференцировать. Размер организации подразумевает наличие большого количества звеньев в принятии решений и при трансляции информации, что достаточно существенно влияет на сроки выполнения этапов внедрения инициативы по управлению данными.

Культура у подразделений тоже разная. Различна и готовность к изменениям: есть весьма консервативные блоки, а есть очень адаптивные и инициативные. В результате динамика работ по идентификации атрибутов, унификации терминов, запуску системных процедур повышения качества данных была практически индивидуальной для каждого владельца данных.

Технологические проблемы связаны в основном с масштабностью существующего ИТ-ландшафта и множеством интеграций. Так как внедряемая система управления данными предполагает связь с системами аналитического контура, то основные технические трудности были как раз на уровне интеграции.

— Data Governance — это сложно и наукоемко. Можно ли изложить стратегию управления данными в нескольких фразах, понятных обычному потребителю?

Понятие Data Governance, пришедшее из зарубежных практик, действительно имеет достаточно много сложных и весьма витиеватых интерпретаций. В рамках нашей организации принята следующая терминология: управление данными — комплекс организационных и технических мероприятий, направленных на повышение эффективности сбора, обработки, хранения и использования данных как ценного стратегического актива.

С практической точки зрения можно выделить несколько ключевых моментов.

У каждого класса данных должен быть владелец данных, ответственный за их качество, методологию расчета и поддержание в актуальном состоянии карт потоков данных в ИТ-ландшафте.

Внедрение «навигатора по данным» в формате специализированного решения — бизнес-глоссария — позволит значительно сократить время на поиск данных.

Существенная модернизация систем аналитического контура — хранилищ данных и комплекса инструментов по работе с большими данными, инструментов BI self-service analytics — призвана обеспечить высокую доступность оперативных и достоверных данных для бизнеса. Наконец, важно наращивать компетенции в бизнес-подразделениях по управлению данными и по работе с большими данными посредством специализированных образовательных программ для сотрудников и участия в практических проектах.

— Что собой представляет созданная инфраструктура для работы с данными?

Что касается инструментов для управления данными, мы выбрали Informatica Axon для ведения бизнес-глоссария и Informatica Enterprise Data Catalog (EDC) для отрисовки карты потоков данных. Одна из технологических сложностей работы EDC заключается в том, что далеко не для каждой системы, особенно сильно кастомизированной, решение способно в автоматическом режиме выстроить карту потоков данных. Для этого при написании процедур ETL необходимо следовать определенным стандартам кодирования.

Что касается моделирования и работы с данными, у нас есть определенное количество унаследованных хранилищ, существует стек для аналитики больших данных на Cloudera Hadoop, а также большой парк различных аналитических библиотек — мы опробовали практически все, что есть на рынке, и часть из них внедрили в свою работу.

— У вас используется смесь открытых и проприетарных решений. Есть ли политика в этой области?

У нас гибридный подход. По ряду направлений мы не можем и не будем использовать открытые платформы. Банк должен гарантировать максимальную стабильность работы своих систем. Мы не можем полностью перейти на open source. Но в отдельных случаях это вполне оправданно, и у нас проприетарные и открытые сегменты даже несколько разделены в ландшафте. Наша команда big data, работающая с открытыми решениями, выделена в инфраструктуре со своим стеком решений.

Дешевизна открытых платформ — в некоторой степени иллюзия. Для банка критически важны наличие поддержки, ее стабильность и четко определенное соглашение об уровне услуг. Open source с такими условиями становится вовсе не бесплатным.

— Говоря о целевой архитектуре, вы упомянули хранилище, но ничего не сказали об озере.

Мы оперируем понятием «платформа данных», которое включает в себя и ODS (оперативное хранилище данных), и реляционное целевое единое хранилище, BI-приложения и различные инструменты для работы с большими данными, что, собственно, в общеизвестной практике и называют «озером данных».

— Чего вы уже добились и чего ожидаете добиться в обозримом будущем?

Мы вывели систему управления данными в промышленную эксплуатацию, к ней имеют доступ все сотрудники банка. Очень многих удалось обучить, и они начали пользоваться системой. Это серьезное достижение.

В дальнейшем будем масштабировать и наполнять бизнес-глоссарий, закреплять ответственных за каждый атрибут. Проверка качества данных будет поставлена на конвейер.

Задача на будущее — масштабирование созданных решений и методологических практик на уровень группы ВТБ.

— Создание платформы управления данными должно окупиться? Или такая задача не ставится?

Да, эта платформа должна окупиться. Бизнес-кейс построен на оптимизации процессов анализа и разработки, разбора инцидентов, на сокращении времени на сверку данных. И не надо забывать об инфраструктурной составляющей: в рамках большого проекта по модернизации платформы данных мы все-таки переносим ее часть на open source, снижая стоимость хранения и обработки.

— Готов ли бизнес к тому, чтобы стать data-driven?

Следует разделить такую «готовность» на желание и способность к реальному действию. Желание есть, и осознание того, что изменения в этом направлении жизненно необходимы, тоже есть. Стоит отметить, что в «Стратегии банка — 2022» выделен отдельный блок, посвященный непосредственно работе с данными. А осознание необходимости изменений сотрудниками, которые участвуют в рутинных ежедневных операциях, и осуществление этих изменений — процесс, к сожалению, небыстрый и зачастую болезненный.

— Какие мероприятия по изменению культуры вы проводите?

Безусловно, одно из самых важных — это трансляция ценностей на уровне правления, топ-менеджмента. На операционном уровне — образовательные бизнес-завтраки и курсы обучения.

Очень эффективный подход — персональные истории успеха. Мы выпускаем новостной дайджест, где красочно освещаются назначения владельцев данных и первые результаты их работы. Очень важна персонализация — с фотографиями и описанием заслуг. Это хорошо работает и на мотивацию, и на культуру.

Но лучше всего, когда люди начинают понимать, что ведется реальная работа для решения их проблем, когда видят действительную пользу от работы владельцев данных, менеджеров по качеству данных и офиса CDO. Надо признать, что нам предстоит еще долгий путь.

— Какие стратегические проекты, основанные на данных, являются знаковыми для ВТБ?

В 2019 году банк запустил несколько крупных партнерских проектов с использованием данных.

Так, создается совместное с «Ростелекомом» предприятие, направленное на работу с пользовательскими данными. Его задачами станут создание продуктов и оказание услуг на основе анализа больших данных, в том числе с применением технологии искусственного интеллекта. «Жилищная экосистема ВТБ» — знаковый проект, совместивший все виды услуг и сервисов по приобретению, аренде и дальнейшему обустройству жилья для граждан. Отдельно следует упомянуть «Лайфстайл платформу», объединяющую различные сервисы: вызов такси, доставку еды, бронирование ресторанов, покупку билетов и т. д.

Все более ценным становится подход, когда банк выходит из контура привычных задач и использует данные для разработки различных сервисов в партнерстве с компаниями из смежных сфер, обеспечивая удобство для клиентов и расширяя свою клиентскую базу. Это наши стратегические проекты.


Теги: Директор по данным CDO Award



На ту же тему: