BIG DATA 2021: теория и практика

Участники форума поделились практикой реализации дата-проектов и рассказали о технологиях, которые могут сделать внедрение проектов проще и эффективнее.

В рамках 10-го форума BIG DATA 2021, проведенного издательством «Открытые системы», важное место занял тематический блок «Дата-проекты: платформы, подходы, практика». Наибольший интерес в нем вызвали выступления экспертов «Сбера» — признанного лидера российского рынка в области работы с данными. Ключевым направлением последних лет стала плотная работа компании со своими с дата-сайентистами и другими специалистами по данным (их в «Сбере» называют D-People) в попытках улучшить их «клиентский опыт».

Например, показательным стало внедрение инструментов, автоматизирующих работу дата-сайентистов, — средств автоматического машинного обучения (AutoML). Его цель — уменьшить ручной труд аналитиков. Такой подход выгоден там, где раньше машинное обучение не окупалось и где требуется частое переобучение моделей.

Однако построение моделей — всего лишь небольшая часть работы. До 2019 года многие процессы работы с данными были организованы далеко не оптимально: приходилось тратить огромное время на установку ПО и получение доступа к данным, а сами данные были разрозненными. Как констатировал Борис Рабинович, директор департамента управления данными «Сбера», большую часть времени дорогостоящие D-People не работали, а занимались решением «коммунальных вопросов»: получением инфраструктуры и вычислительных мощностей (этот процесс занимал до трех месяцев), установкой необходимых инструментов (до двух месяцев), поиском и получением данных (до двух месяцев).

«Мы осознали проблемы наших внутренних клиентов и пересмотрели процессы и подходы к организации их рабочих мест. Данные и вычислительные мощности в ряде случаев теперь можно получить за час, быстро выдается полный инструментарий и предоставляются необходимые библиотеки», — подчеркнул Рабинович.

Построенный супермаркет данных стал единым окном во вселенную данных «Сбера» и важнейшим элементом создаваемой фабрики данных. Он позволил радикально ускорить все процессы работы с данными. Процесс оформления заказа на данные составляет около 10 минут, а весь процесс от входа в систему до получения данных занимает от 30 минут до суток, в зависимости от сложности работ. Супермаркет обслуживает около 200 заказов в день, и ежедневно через инфраструктуру супермаркета «гуляет» около 350 Тбайт данных.

Дмитрий Карбасов, руководитель управления промышленного искусственного интеллекта "Евразийской группы" (ERG), рассказал об использовании искусственного интеллекта для оптимизации закупочной деятельности.

«Мы в автоматическом режиме ищем поставщиков с наиболее выгодными ценами, строим базу продавцов и обрабатываем ее по интересующим нас алгоритмам — как для поиска минимальных цен, так и для заполнения конкретных лотов», — отметил Карбасов. При этом искусственный интеллект отвечает за выявление и устранение ошибок в позициях, за стандартизацию и поиск претендентов на роль поставщиков. Компании удалось значительно повысить прозрачность закупок с помощью создания единой базы цен.

Как отметил Андрей Майоров, технический директор РДТЕХ, телемедицина — это вовсе не общение по Skype с врачом, а медицина на основе данных, собираемых в реальной жизни. Рынок предлагает тысячи моделей носимых гаджетов, которые можно использовать для чего-то большего, чем подсчет шагов. Ярким примером может служить сервис цифровой медицины Actenzo. Майоров поделился опытом создания системы мониторинга физиологических параметров организма и предупреждения о развитии негативных трендов в состоянии здоровья человека. С помощью фитнес-браслетов решение измеряет пульс, давление, температуру, делает ЭКГ, оценивает физическую активность и качество сна.

Максим Милков, технический директор департамента анализа данных Softline AI, рассказал о преимуществах использования технологий обработки естественного языка (Nature Language Processing, NLP) для оптимизации документооборота. Проблемы поиска корпоративной информации общеизвестны: опросы показывают, что сотрудники тратят на добычу необходимой информации до 16 часов в неделю. При этом только в 56% случаев они находят ее, и большинство отмечают, что искать информацию гораздо сложнее, чем в Интернете. В решении проблемы помогает вопросно-ответная система, понимающая смысловое значение запроса. Она способна существенно облегчить жизнь пользователей и освободить массу времени.

Роль облаков и синергия с ИТ

Развитие облачных сервисов сыграло важную роль в ускорении дата-проектов, реализуемых многими компаниями. Как отметил Дмитрий Павлов, менеджер по развитию бизнеса Yandex.Cloud Data Platform, случаи полного (а тем более быстрого) перехода компаний в облако крайне редки. Обычно такие проекты происходят поэтапно и растянуты во времени. Часто компании ограничиваются лишь переносом в облако вычислительных мощностей и на этом останавливаются.

Ситуация значительно изменилась с появлением экосистем, в которых провайдер предоставляет комплекс услуг, обеспечивая их интеграцию. Тем не менее вопрос выбора оптимальной модели приобретения инфраструктуры до сих пор актуален и во многих случаях не имеет однозначного ответа.

Александр Волынский, архитектор PaaS-продуктов Mail.ru Cloud Solutions, согласен с тем, что облако предоставляет много возможностей для работы с большими данными. В большинстве случаев при построении хранилища данных компаниям приходится выбирать между моделями PaaS и IaaS, но есть и альтернатива. Волынский рекомендовал для работы с большими данными в облаке использовать инструменты Kubernetes. За счет этого можно получить продвинутую платформу для управления данными. Важно, что все используемые для таких целей инструменты являются открытыми.

Никита Кардашин, руководитель отдела развития интеллектуальных систем Naumen, порекомендовал найти точки соприкосновения CIO и CDO, где классические ИТ могут быть полезны для работы офиса данных. «Какие бы идеи ни возникли у руководства компании с точки зрения цифровизации и трансформации бизнеса, они будут опираться на процессы, архитектуру ИТ и работу ИТ-специалистов», — констатировал он. В ИТ наработан огромный пласт опыта, касающегося доставки ценности бизнесу и аналитики результатов этих усилий. Этот опыт зафиксирован в ITIL. В офисе данных часто пытаются изобретать велосипед, вместо того чтобы использовать лучшие практики. Процессы управления ИТ могут помочь в монетизации данных, обеспечении их качества, повышении надежности сервисов и сокращении издержек.

Не менее важен и обратный обмен опытом: многим компаниям будет полезно применить современные технологии к процессам управления ИТ. Как ни странно, ИТ — далеко не самая продвинутая область с этой точки зрения.