Умное озеро данных «Газпром нефти»: как удивить Gartner | Вестник цифровой трансформации

Иван Черницын, руководитель Центра аналитических решений Дирекции региональных продаж «Газпром нефти», рассказывает о создании умного озера данных — решения, аналогов которого нет не только в России, но и на Западе.

Дирекция региональных продаж ПАО «Газпром нефть» (ДРП) управляет сбытом различных видов моторного топлива компании через собственную розничную сеть, состоящую из более чем 1,8 тыс. АЗС и включающую свыше 800 магазинов и кафе, а также через оптовые каналы и сервисы для коммерческих транспортных парков. Кроме того, подразделение отвечает за товаропроводящую сеть, в которую входят нефтебазы, лаборатории и собственный парк бензовозов. В периметре компаний под управлением дирекции работают более 20 тыс. сотрудников, и по численности персонала это примерно треть всей группы «Газпром нефть».

В ДРП построена уникальная на сегодняшний день платформа — smart data lake. В ее рамках озеро данных и аналитическое хранилище данных интегрированы с инструментами Data Governance. Иван Черницын, руководитель Центра аналитических решений Дирекции региональных продаж «Газпром нефти» и номинант на премию CDO Award 2020, рассказывает о пути к созданию умного озера данных, о первых результатах и ближайших направлениях развития.

- Какова история подходов к работе с данными в Дирекции региональных продаж?

У нас сложилась уникальная для крупного бизнеса ситуация с автоматизацией и управлением данными. Наше сбытовое подразделение было выделено в «Газпром нефти» в 2008 году. Тогда же пришла команда топ-менеджеров, сохранившая свой состав по сей день, и стартовала программа унификации процессов, а затем и информационных систем всех дочерних предприятий. В этой програме я принимал активное участие.

В 2009–2011 годах в ДРП были внедрены унифицированные для всех регионов учетные и производственные системы: системы управления АЗС, коммерческого, бухгалтерского и управленческого учета, планирования и бюджетирования, управления инвестициями, персоналом, автотранспортом и др. Это позволило создать институт владельцев систем и через него управлять регламентами ведения первичных данных, расчета ключевых показателей и их изменения. С помощью сравнительного бенчмаркинга показателей регионов были найдены лучшие способы, позволяющие экономично вести деятельность. Благодаря тиражированию этих практик ДРП, в течение трех лет удалось существенно сэкономить затраты и добиться прироста продаж. Сбыт моторного топлива «Газпром нефти» стал признанным эталоном эффективности в России.

- Когда и как пришло понимание того, что надо заниматься развитием комплексных аналитических решений?

Иван Черницын: «Компания воспринимает первые внедрения комплексных систем управления данными в бизнес-блоках вполне лояльно: разнородность подходов расценивается как некое соревнование, апробация разных идей и технологий».

В 2011 году мы задумались об интеграции данных всех учетных и производственных систем в едином аналитическом пространстве, чтобы находить новые инсайты. Для этого мы разработали и внедрили систему управления нормативно-справочной информацией и подошли к выбору платформы класса BI. В конце 2012 года проект BI стартовал. В его ходе мы отказались от создания единого хранилища данных ради скорости реализации аналитических задач, взамен было организовано логическое хранилище с единым семантическим слоем на платформе Qlik. Благодаря очень удачному архитектурному решению наша BI-система за четыре года стала одной из самых функциональных и крупномасштабных в России. У всех сотрудников появились единый бизнес-словарь и набор гибких аналитических инструментов с едиными методиками и терминологией.

Мы также сформировали центр компетенции по BI, объединивший не только системных аналитиков, архитекторов и разработчиков, но и экспертов по качеству данных. Благодаря организации эффективной работы и очень пристальному вниманию к качеству данных, к концу 2016 года с единым BI работали уже более 1,1 тыс. пользователей. Это решение аккумулировало данные свыше 80 корпоративных систем, а очередь на разработку нового функционала от бизнес-заказчиков состояла из более чем 200 задач.

Вместе с тем за годы работы с аналитическими инструментами выросла культура сотрудников и стали меняться требования подразделений. Усложнялись алгоритмы обработки данных, рос их объем и количество источников, появлялось все больше внешних данных. Кроме того, бизнес-аналитикам требовались актуальные диаграммы происхождения данных, различная статистика по качеству данных, инструменты поиска данных на внутренних слоях BI. У нас возникла необходимость в проактивном управлении качеством данных.

- Какой подход был выбран?

Чтобы удовлетворить наши новые потребности, мы совместно с фондом «Сколково» в 2016 году масштабно исследовали рынок решений, изучили рекомендации DAMA DMBoK, пообщались с экспертами Gartner и сделали много референс-визитов. В итоге остановились на концепции комплексной системы управления данными. Она включала в себя каталог данных с описаниями и происхождением объектов данных, каталог правил по качеству данных с возможностью обогащения правил и просмотра их статуса и истории, бизнес-глоссарий с инструментами управления изменениями определений и формул расчета бизнес-терминов, а также пользовательский портал. С целью сделать детальные данные доступными для аналитиков мы провели изыскания в области промышленных инструментов обработки и хранения данных, после чего было решено внедрить современное многокомпонентное логическое хранилище данных.

- В чем заключалась суть этого проекта?

В конце 2017 года мы сформировали и защитили программу из двух взаимосвязанных проектов («Создание озера данных ДРП» и «Создание системы управления данными ДРП») как часть стратегии цифровой трансформации нашего бизнеса. Совместный результат программы проектов мы стали называть «умным озером данных», в соответствии с зарубежными терминами smart data lake и governed data lake. Я стал лично отвечать за программу, а наш центр компетенций расширился на 20 человек и получил в 2018 году сначала название «Офис управления данными», а затем, в 2019 году, — «Центр аналитических решений». Сейчас у нас более 60 сотрудников, и в едином подразделении работают специалисты по качеству данных, по управлению метаданными, разработчики и архитекторы big data, хранилищ данных и BI, системные аналитики, исследователи данных, а также тренеры по развитию аналитической культуры.

- Тренеры по развитию аналитической культуры? На кого именно направлена их деятельность?

На всех бизнес-сотрудников, которые используют или хотят использовать аналитические решения либо хотят изменить свою роль в подразделениях.

В нынешнем году у нас появилась матрица компетенций, включающая как технические, так и нетехнические навыки, уровни развития компетенций, индикаторы их наличия. К этой матрице привязаны программы обучения, семинары и тесты. За 2019 год более 400 специалистов прошли обучение по Python, SQL, машинному обучению и применению аналитики в различных направлениях бизнеса. Неплохо для начала. За прошлые годы на курсах по BI в общей сложности обучилось 1,2 тыс. человек.

Сейчас разрабатываем онлайн-курсы для удаленных сотрудников и программы тестирования. В дальнейшем сотрудники, которые не прошли тесты, подтверждающие соответствующие компетенции, не будут допускаться к работе со сложными аналитическими инструментами. Неподготовленные сотрудники не должны дискредитировать своими действиями всю аналитическую программу. Полученные ими некорректные результаты или интерпретации могут привести к самым нежелательным последствиям — подрыву доверия к данным со стороны руководителей бизнеса.

- Что такое «умное» озеро данных? Чем оно отличается от «обычного»?

Согласно оценкам Gartner, в мире 83% озер данных превращаются в «болота данных» и в итоге забрасываются из-за проблем с поиском качественных данных. Еще сильнее усложняет ситуацию то, что все больше компаний используют гибридную архитектуру хранения (часть данных хранится в публичных облаках, а часть — в корпоративных озерах и хранилищах). Выходом из ситуации является создание озер и хранилищ с интегрированными инструментами управления данными: каталогом данных, системой управления качеством данных, бизнес-глоссарием, средствами интеграции и маскирования данных. Однако на сегодняшний день не существует готовых промышленных решений, включающих в себя комплексные платформы обработки, хранения и управления данными. К созданию таких решений приблизились Microsoft и Amazon в своих публичных облаках. В материалах Gartner и публикациях вендоров описаны архитектурные шаблоны для таких решений.

- С какими проблемами пришлось столкнуться в ходе проекта?

Подобных решений нет не только в России, но и на Западе. И вообще было непонятно, как это будет работать на практике.

В Gartner признают, что «умное озеро данных» — это не практическое решение, а продвинутый архитектурный шаблон на будущее, который сегодня апробируют Microsoft и Amazon в собственных облаках. А мы построили все это на своей площадке.

Мы реализовывали умное озеро данных на базе практических бизнес-кейсов, входящих в состав актуальных проектов, при этом обкатывая совместную работу компонент и участников команды разработки. Проект был крайне сложным, мы несколько раз меняли подходы и переделывали реализованные кейсы, когда находили новые решения. Только организовав работу всех участников в одной команде с единой мотивацией, мы смогли преодолеть огромное множество технологических и методологических трудностей.

- Какова архитектура созданной платформы данных? На каких решениях она построена?

«Умное озеро данных ДРП» — название комплексной системы управления данными, а не просто разновидность Data Lake. Мы использовали такое название, чтобы кратко выделить ключевые особенности решения. Умное озеро данных ДРП включает в себя подсистемы Data Governance на платформе Informatica (каталог данных, управление качеством данных, бизнес-глоссарий, пользовательский портал обзора данных), компоненты интеграции данных, а также интегрированные с ними компоненты обработки больших данных (на основе Arenadata Hadoop), аналитическое хранилище данных (Microsoft SQL Server 2017), BI (Qlik), аналитическую лабораторию с набором инструментов Data Science.

- Какие источники данных вы используете в своей работе?

К внешним источникам можно отнести Санкт-Петербургскую товарно-сырьевую биржу, «СПАРК-Интерфакс», Портал открытых данных РФ, сайты Центробанков России и СНГ, географические и метеорологические ресурсы, метрики и отзывы Google, App Store, «Яндекс», открытые данные социальных сетей, различные данные партнеров и сведения о конкурентах, данные мобильных приложений. И конечно, мы широко охватываем наши внутренние системы.

- Как в рамках проекта выстроена работа с качеством данных?

Система управления качеством данных была выстроена очень серьезно в рамках развития единого BI. Исторически это реактивная система, которая развивалась через разрешение инцидентов с данными (аналог service desk), но она весьма эффективно работала. В 2015 году мы создали выделенную функцию по качеству данных, за 4 года выросшую в подразделение из семи человек, чьей задачей было системно не допускать повторных ошибок. Эти специалисты формализовывали причины появления дефектов данных и формировали запросы на доработку систем-источников или BI-инструментов. Поскольку BI-система интегрировала все ключевые данные в контуре ДРП, выполняла массовое устранение причин дефектов в данных через решение ежедневных обращений от сотен сотрудников, большой эффект распространялся на все системы и в целом на культуру работы с данными в контуре всех наших подразделений.

Однако, после того как число BI-приложений в парке выросло до нескольких сотен, созданными правилами стало сложно управлять, при доработках для различных заказчиков начали возникать несоответствия в требованиях по качеству данных. Исправить ситуацию помогла идея централизованного каталога правил по качеству данных, чтобы правила можно было видеть в разрезе потоков данных и ключевых наборов данных, витрин или BI-приложений и привязывать к аспектам качества, бизнес-процессам, определять уровень их критичности. Это дает возможность видеть не только существующие правила, но и пробелы в них. Возможные проблемы можно предвидеть еще до их появления — система управления качеством становится проактивной. Чтобы внедрить такую систему, мы при формировании умного озера данных предусмотрели промышленное решение класса Data Quality, охватывающее именно эти функции.

Вследствие этого в подразделении по качеству данных фокус сместился с прошлого на будущее: если раньше все внимание было направлено на устранение причин уже произошедших ошибок в данных, то сейчас — на разработку системы проактивного мониторинга, продумывание и настройку правил по качеству данных, чтобы тем самым избежать ошибок.

- Насколько обязательно для бизнеса использование созданной вами платформы?

На созданной централизованной аналитической инфраструктуре мы реализуем актуальные задачи исходя из бизнес-приоритетов. При таком подходе с течением времени все ключевые данные и аналитические модели окажутся в умном озере данных.

Однако, чтобы наш ресурс не стал «бутылочным горлышком», мы не мешаем создавать в некоторых проектах локальные аналитические решения со своими отдельными командами. Выбор нашей инфраструктуры и нашей внутренней команды — это дело добровольное для бизнес-заказчиков. Мы делаем ставку на то, что завтра эффективность и высокое качество работы нашей команды приведут к полному охвату всех задач и данных ДРП в умном озере данных.

Точно такая же схема работы была во времена BI, когда внутренний Центр компетенций по BI за несколько лет вытеснил всех внешних подрядчиков. Подразделения просто перестали заказывать работы извне, потому что мы смогли очень качественно решать все задачи своими силами.

- Приведите в качестве примера несколько наиболее ярких проектов, реализованных в последнее время.

Первые кейсы включили в себя конвейер обработки транзакций АЗС, расчет сегментов для клиентской аналитики, семантический анализ обратной связи от клиентов в различных каналах, обработку многолетних внешних и внутренних данных о ценах на нефтепродукты. Несмотря на трудности, уже первичное внедрение стало успешным: на текущий момент примерно половина всех аналитических проектов и инициатив ДРП уже реализуется в контуре умного озера данных, план на 2020 год — охватить не менее 75%.

- Можно ли что-то сказать о первых финансовых результатах этих проектов?

Эффект от озера данных нужно считать очень трезво. Пока очевидно лишь то, что мы экономим на интеграции данных для многих проектов, сокращаем время поставки готовых наборов данных для всех будущих проектных и продуктовых команд, а также для задач прототипирования.

Когда мы только пилотировали клиентскую аналитику — расчет сегментов с помощью машинного обучения, — уже первые кейсы, сделанные «на коленке», без всякого озера данных, дали серьезную монетизацию. Возврат клиентов, склонных к оттоку, вырос втрое. Существенное преимущество озера в том, что модели переносятся в более надежную среду, получают надежные инструменты, обеспечивающие качество данных. Поэтому большинство эффектов будет проявляться спустя некоторое время.

- Почему именно сбытовое подразделение компании выступило в авангарде создания умного озера?

В двух других крупнейших бизнес-блоках «Газпром нефти» тоже внедряются озера и аналитические хранилища данных, они сфокусированы на обработке и хранении данных и быстрой разработке и монетизации бизнес-кейсов, но не на Data Governance.

Архитектура smart data lake, которую мы реализуем в ДРП, — самая сложная из всех существующих для работы с большими данными. В Gartner отмечают, что организация, прежде чем к ней прийти, должна сначала внедрить у себя более простые варианты. Мы в блоке ДРП семь лет развивали BI и управление качеством данных, отработали интеграцию множества источников, конвейеры обработки данных, большое число бизнес-кейсов. И два года назад инициировали амбициозный и рискованный эксперимент со smart data lake, потому что у нас и наших бизнес-заказчиков было четкое понимание стратегических преимуществ инструментов Data Governance. Ради этих преимуществ мы потратили и продолжаем тратить большие средства на отладку совместной работы всех компонентов и методологию управления данными в smart data lake, так что наш проект окупится в более долгосрочной перспективе.

Компания воспринимает первые внедрения комплексных систем управления данными в бизнес-блоках вполне лояльно: разнородность подходов расценивается как некое соревнование, апробация разных идей и технологий. Внутри компании мы организовываем дни открытых дверей, внутренние конференции с демонстрацией решений, и мы открыты к диалогу.

После двух-трех лет практической эксплуатации озер и аналитических хранилищ данных в блоках можно ожидать появления первых общекорпоративных стандартов, а затем стандартизации на уровне компонент и методологии. В корпоративном центре «Газпром нефти» чуть более года назад появился орган, задача которого — формировать общую стратегию и общие «правила игры» в части Data Governance на уровне всей компании.

- Как будет дальше развиваться платформа данных?

На сегодня у нас все еще остается много нерешенных вопросов. Следующий год будет годом становления внутренней эффективности при разработке аналитических решений со встроенными инструментами управления данными. Один из существенных этапов такого становления — интеграция с имеющейся у нас инфраструктурой DataOps: Kubernetes/Openshift, Jenkins, Gitlab, Jira, Confluence. В результате удастся автоматизировать рабочие процессы инжиниринга данных, тестирования, выпуска релизов и в дальнейшем внедрить SLA — подход «данные как сервис» с гарантированными сроками и параметрами по типовым задачам поставки данных.

Кроме того, важными этапами в развитии культуры работы с данными станут официальное закрепление ролей владельцев данных (data owner) и распорядителей данных (data steward) в бизнес-подразделениях, а также настройка рабочих процессов управления изменениями объектов данных через единый каталог и бизнес-глоссарий.