«BIG DATA 2020 ОНЛАЙН»: платформы данных посткризисной эпохи

Сергей Золотарев: «В условиях резкого роста объемов данных недальновидно строить платформу без учета ее кратного роста»


13:34 11.06.2020   |   10310 |  Дмитрий Волков |  «Открытые системы»

Рубрика Предприятие



Мир «после карантина» требует иных инструментов для работы с большими данными.

Практически во всех сферах экономики и госуправления сегодня пытаются адаптироваться к новым условиям, наладить быстрый и надежный доступ к жизненно важным приложениям и сервисам работы с данными, сохраняя при этом стабильность операционной деятельности и избегая излишних затрат. Как продемонстрировал форум «BIG DATA 2020 ОНЛАЙН: данные в основе цифровой экономики», проведенный издательством «Открытые системы» 4 июня, востребованы новые гибкие и экономичные платформы поддержки работы с большими данными.

Как следовало из выступлений представителей различных отраслей отечественной экономики, производителей оборудования и программных решений, ответы на растущие запросы посткризисного цифрового уклада надо искать не только в унаследованных программных стеках и дорогостоящем проприетарном ПО, но и среди инновационных решений с открытым кодом и ранее не востребованных решений, позволяющих предприятиям пользоваться всеми преимуществами облачно-ориентированных платформ. (О содержании пленарной сессии форума см. также «BIG DATA 2020 ОНЛАЙН: данные для государства и бизнеса»; лучший практический опыт тех, кто превращает данные в ценный актив — в статье «BIG DATA 2020 ОНЛАЙН: кому помогают данные».)

Виртуализация данных

Алексей Сидоров, директор по управлению данными компании Denodo, в своем выступлении «Виртуальная фабрика данных — современная архитектура управления большими данными» рассказал о реализации набирающей популярность концепции виртуализации данных.

Идея логического бесшовного объединения всех доступных данных в единый связный массив для формирования индивидуальных конфигураций не нова, но только сегодня, во многом благодаря развитию технологий виртуализации и гибридных облаков, она обрела реальные очертания. Корпоративные данные часто просто невозможно физически собрать в одной точке, абстрагироваться от конкретных форм их хранения, с тем чтобы и унаследованные, и новые приложения видели данные как один единый пул. Однако бизнес не интересуют форматы данных и особенности их хранения — ему необходим мгновенный доступ ко всей корпоративной информации, распределенной по озерам, хранилищам, структурированным базам, файлам Excel на компьютерах сотрудников и пр., чтобы использовать для ее анализа имеющиеся системы бизнес-аналитики, приложения учета, корпоративные витрины данных и т. д. Виртуальная фабрика данных позволяет решить эти задачи без физического перемещения данных, обеспечивая контроль доступа к ним, очистку, унификацию и визуализацию. Промежуточный уровень изолирует физическое хранение данных от приложений, которые не должны знать, на каких серверах, где и в каких базах находятся используемые ими данные, и лишь предоставляет приложениям виртуальный доступ к нужным сведениям. Такой подход позволяет минимизировать ошибки, снизить нагрузку на инфраструктуру, повысить скорость безопасного доступа к информации, сократить время на создание новых витрин данных, что востребовано приложениями бизнес-аналитики в реальном времени, требующими совместного использования исторических и оперативных данных.

Как работает виртуальная фабрика, воплощающая концепцию демократизации данных, Сидоров продемонстрировал на примере проекта для компании Caterpillar. Большегрузные самосвалы CAT невозможно ремонтировать вне гаража, их эвакуация также весьма проблематична, а каждый день простоя дорого обходится дилеру. Для минимизации потерь требуется проводить анализ данных от датчиков машины для предсказания момента ремонта, что предполагает интеграцию с корпоративными системами анализа, учета и планирования, среди которых немало унаследованных. В результате развертывания платформы Denodo Platform удалось сократить стоимость гарантийного ремонта, оптимизировать складские запасы запчастей и обеспечить оперативный учет замечаний, возникающих в процессе эксплуатации самосвалов. Более того, CAT теперь монетизирует накапливаемые данные, которые стали охотно покупать дилеры, заинтересованные в улучшении обслуживания своих клиентов, приобретающих, по сути, не физическую машину, а услугу по перевозке грузов. Таким образом, единая модель данных и цифровое моделирование позволяют всем участникам производственных отношений развиваться даже в условиях сокращения затрат.

Повсеместные данные

Выступление Сергея Золотарева, генерального директора компании Arenadata, было посвящено архитектуре аппаратно-программной платформы, позволяющей создавать и развертывать любые приложения в любых средах — от граничных систем до гибридных облаков.

Как убедительно показал нынешний кризис, развивая цифровые инструменты бизнеса, очень важно уметь справляться с неопределенностью, а для этого надо быстрее и чаще, в стиле Agile, предлагать и проверять новые бизнес-модели, различные сервисы и прототипы новых решений. Однако поддержку такой стратегии не сможет обеспечить ни одна универсальная инфраструктура, вынужденная наряду с традиционными работать с новыми инструментами анализа данных.

«Сегодня уже недостаточно сделать хорошую платформу работы с данными — надо, чтобы она отвечала постоянно меняющимся требованиям и современным тенденциям развития технологий», — отметил Золотарев.

Вместе с тем пользователям сегодня предлагаются лишь две парадигмы, между которыми они вынуждены делать трудный выбор: либо локальная инфраструктура на собственной корпоративной площадке (безопасно, но трудно масштабировать и внедрять новые технологии), либо облака (масштабирование, эластичность, но недостаточная безопасность). Кроме того, наметилась практика получения конкретного сервиса только из определенного облака. По мнению аналитиков, решение на ближайшие десять лет — гибридное облако, позволяющее получать преимущества двух подходов. Почти 90% компаний сегодня одновременно используют и частные, и различные публичные облачные среды, по мере необходимости перенося между ними свои приложения. Как полагает Золотарев, именно гибридные облачные среды станут стандартом для хранилищ данных поддержки бизнеса.

Однако просто запустить приложение в другом облаке вряд ли сразу получится: пользователь столкнется с разнородностью версий и настроек ПО, отсутствием единого инструмента управления и мониторинга и другими сложностями. Поэтому гибридная инфраструктура должна обеспечивать единообразие версий инструментов, приложений и системных сред, а также совместимость и тиражируемость их шаблонов.

Компания Arenadata предлагает модульное решение для цифровой компании, включающее: оцифрованные бизнес-процессы (множество инструментов для решения прикладных задач); платформы данных Arenadata Enterprise Data Platform (EDP) с нативной интеграцией сервисов и компонентов, централизованным мониторингом и инструментами управления кластерами; эластичную инфраструктуру. Последние два компонента — это гибридное облако. EDP представляет собой не просто набор различных сервисов на все случаи жизни, включая и бесплатные, а универсальный оркестратор Arenadata Cluster Manager гибридного ландшафта, позволяющий устанавливать и настраивать сервисы, а также управлять ими независимо от инфраструктуры. Естественно, предусмотрены инструменты работы и с инфраструктурой: создание и управление виртуальными машинами, конфигурирование операционных систем и пр. По сути, речь идет об экосистеме, способной работать с множеством сервисов управления данными и облачных ресурсов, таких как Kafka, Hadoop, Tarantool, ClickHouse, Spark, AWS, Mail.ru Cloud, облако «Ростелеком», «Яндекс.Облако» и пр.

Сегодня платформы Arenadata EDP работают, в частности, у таких заказчиков, как НЛМК, ФНС, «Газпромнефть», X5, ВТБ.

Однако ценность многих технологий для бизнеса (особенно бесплатных) ограниченна, и многие компании это осознают. Как отметил Евгений Степанов, руководитель направления Big Data Platform компании Micro Focus в России, все больше заказчиков, инвестировавших в Hadoop в расчете на «волшебную пилюлю» в аналитике больших данных, сталкиваются с тем, что им необходимо пересмотреть используемые технологии. Не стоит отрицать преимущества этой платформы в управлении данными и эффективном использовании аппаратных ресурсов, а также возможности по аналитике неструктурированных данных. Однако за последний год на рынке сформировалось три тенденции, оказывающих влияние на поведение заказчиков и заставляющих производителей принимать компромиссные решения. Помимо массивного роста объема неструктурированных данных, это развитие облачных платформ и растущая потребность в инструментах машинного обучения.

По словам Степанова, при развитии платформы Vertica была сделана ставка на эти три основных вызова: унификация данных независимо от формата, в которых они поступают, гибридные и мультиоблачные инсталляции систем, а также развитие машинного обучения на всем масштабе данных.

«Данные — это исключительно затраты компании. Надо учиться превращать их в победы», — заявил Олег Гиацинтов, технический директор DIS Group. Не случайно 57% директоров по данным, опрошенных компанией Informatica, считают своей ключевой задачей «демократизацию» данных: чтобы использовать данные как актив, надо знать о них все. В концепции Data 3.0, озвученной Informatica четыре года назад, данные были провозглашены основным активом и драйвером роста компании. Недавно Informatica выдвинула новую парадигму Data 4.0, суть которой заключается в управлении данными с помощью искусственного интеллекта. Искусственный интеллект приходит людям на помощь в осознании и описании данных, помогает понять, могут ли они выступать в качестве актива и насколько они ценны.

Как отметил Роман Гоц, директор департамента больших данных и безопасности Atos, еще четыре года назад многие потенциальные заказчики вообще не понимали, что можно делать с данными. Случались ситуации, когда сами ИТ-директора не слишком сознавали, зачем им нужно озеро данных, не могли объяснить этого бизнесу, и реализуемые проекты ставились на паузу. С тех пор рынок заметно созрел, а в Atos перешли от «железных» систем к законченным решениям под ключ.

В рамках своего выступления Гоц представил программно-аппаратный комплекс Atos с встроенной платформой Cloudera для создания озер данных. Он обладает всеми традиционными преимуществами перед самосборными решениями, в том числе обеспечивает поддержку из одного окна и радикальное ускорение процесса внедрения. В частности, крупный проект SAP Data Factory в Германии на базе этого решения был развернут менее чем за два месяца. В России его применяют «Норильский никель», НЛМК и ЧТПЗ.

Увидеть все

Коронавирусный кризис «закрыл» физические границы, но границы цифровые, напротив, оказались стертыми, что сделало еще актуальнее средства сквозной аналитики, независимые от объемов данных, аппаратной или облачной платформы.

«Бизнес хочет видеть все данные в целом и непосредственно работать с ними. Однако в реальности получает лишь фрагменты (либо вынужден работать только через аналитиков или программистов), а иногда и грязные данные. В итоге анализируется не то, что надо, а то, что 'под фонарем"», — обозначил насущную проблему Иван Вахмянин, генеральный директор компании Visiology, в своем докладе «Одна BI-платформа, чтобы править данными. Сквозное обогащение данных — от Big Data до ручного ввода».

Иван Вахмянин
Иван Вахмянин: «Бизнесу надо работать с тем, что есть, а не пытаться нормализовать данные и перемещать их в одну точку. Нужна платформа, способная предоставлять удобные инструменты работы с любыми большими, грязными или структурированными данными»

Предлагаемая этой компанией платформа позволяет бизнес-руководителям непосредственно работать со всеми имеющимися данными, подключаться к их источникам независимо от «чистоты», структурированности и формы представления информации. При этом интерфейс и инструменты доступны и понятны всем, а не только исследователям данных, аналитикам или программистам.

Visiology позволяет работать во всех сегментах пространства бизнес-анализа: с классическими корпоративными системами аналитики («1C», SAP); большими данными; «малыми» данными (почта, файлы Exсel и пр.). С помощью инструмента ViLoader обеспечиваются устранение дублирования и очистка данных, а система Data Collection через веб-формы предоставляет средства сбора отчетности, планирования и бюджетирования, причем без привлечения ИТ-специалистов. Эта система работает совместно с аналитической СУБД ViQube, в полной мере использующей возможности современного аппаратного обеспечения и оптимизированной для выполнения аналитических запросов. Такая система ориентирована на работу в зоне больших данных и предусматривает режимы In-memory для работы с данными реального времени и ROLAP Engine для работы с хранилищами (обеспечивается интеграция с экосистемой Arenadata и платформой Vertica).

Сегодня около 70% получаемых данных генерируется устройствами Интернета вещей, и нет смысла их обрабатывать даже на платформах, подобных перечисленным, поэтому неудивительно, что набирает популярность концепция граничных вычислений — обработки данных непосредственно в точке их генерации. В своем выступлении «Индустриальные платформы IoT и граничные вычисления» Алексей Никифоров, директор по технологиям Hitachi Vantara, рассказал о динамичной инфраструктуре поддержки устройств Интернета вещей. Платформа Lumada Edge Intelligence, эксплуатируемая сегодня на ряде предприятий нефтегазового сектора России, обеспечивает поддержку решений охраны труда и техники безопасности, выполняя, в частности, задачи мониторинга работоспособности оборудования.

***

Во многих отраслях уже давно принят на вооружение модульный, индустриальный подход — например, авиалайнеры не строят целиком на одном месте, а собирают из лучших в своей области модулей от различных надежных поставщиков. На фоне нынешнего кризиса гибридные облака и виртуализация данных подтолкнули и ИТ к подобному индустриальному сценарию, призванному, как продемонстрировал форум BIG DATA 2020, обеспечивать цифровые предприятия платформами, позволяющими эффективнее преодолевать периоды турбулентности, лучше и точнее, чем сейчас, собирать и обрабатывать все доступные данные.


Теги: Виртуализация Самое интересное Большие данные Управление данными BIG DATA 2020
На ту же тему: