BIG DATA 2018: На пути к демократизации данных

Андрей Николаенко: термин DataOps все связывают с применением практик быстрой интегрированной разработки и эксплуатации на больших объемах данных, однако в его трактовке возникают разногласия


09:32 04.06.2018   |   7342 |  Дмитрий Волков |  «Открытые системы»

Рубрика Предприятие



Участники дискуссии «DataOps – agile-подходы к работе с данными», организованной в рамках форума, постарались разобраться, что в новом подходе от проходящей моды, а что от насущных потребностей предприятий.

Вслед за повсеместным принятием на предприятиях концепции DevOps, поддерживающей активное взаимодействие всех участников жизненного цикла приложений, сегодня заговорили и о DataOps — подходе, который обеспечивает «демократизацию» данных, позволяет работать с ними всем сотрудникам предприятия. Участники дискуссии постарались разобраться, что в DataOps от проходящей моды, а что от насущных потребностей.

Сам термин DataOps появился в 2015 году в блоге Энди Палмера, вместе с Майклом Стоунбрейкером основавшего компанию Tamr. В марте 2017 года термин прозвучал на конференции Strata+Hadoop World, организуемой O’Reilly, а вскоре прочно вошел в лексикон профильных периодических изданий, в частности в ИТ-глоссарии Gartner. Саму концепцию уже взяли на вооружение такие компании, как Facebook, Netflix, Uber, LinkedIn, Twitter и eBay, развернув под нее соответствующую инфраструктуру.

Термин был выбран достаточно удачно – все его понимают как применение практик быстрой интегрированной разработки и эксплуатации на больших объемах данных, однако в его трактовке возникают разногласия. Разрешить их и была призвана дискуссия «DataOps – agile-подходы к работе с данными», которую в рамках форума BIG DATA 2018 провел Андрей Николаенко из IBS.

BIG DATA 2018

В ходе дискуссии обсуждались, например, такие вопросы: agile-методологии в работе с большими данными: скрещивание модных терминов или насущная необходимость? «Бимодальные ИТ», большие данные и DataOps: можно ли развести процессы и данные — часть в «традиционный модус», часть в «гибкий цифровой»? Имеет ли смысл накопление данных при их неясной ценности для анализа в будущем? При обсуждении второго вопроса участники дискуссии рассмотрили ситуацию, когда все данные общие, но с ними одновременно надо работать двумя разными способами: традиционно, когда релизы приложений выходят раз в полгода, и в цифровом режиме, когда обновления происходят несколько раз в день. Анджей Аршавский, директор Центра анализа данных и математического моделирования НЛМК, вместе с Антоном Исаниным, руководителем центра качества «Альфа-Банка», подтвердили, что в их компаниях налицо бимодальность ИТ, но аккуратное выстраивание над платформой данных правильных переходников позволяет эффективно работать с единой платформой в двух режимах.

Наиболее оживленную полемику вызвал вопрос о выживании в условиях DataOps профессий аналитика, математика, программиста, тестировщика и администратора баз данных, поскольку этих специалистов потенциально могут заменить «универсальные солдаты» — исследователи данных (data scientist). Участники дискуссии опровергли тезис о том, что возможно слияние специализаций. Например, Вадим Индриков, начальник отдела системной архитектуры ГНИВЦ ФНС РФ, и Валерий Артемьев, консультант отдела разработки политик, стандартов и процедур Управления методологического и организационного обеспечения департамента статистики и управления данными Банка России, обратили внимание на то, что в командах скорой разработки очень важны взаимная страховка и понимание работы коллег. В этом смысле, как отметил Олег Егоркин, директор проектов «Ростелекома», важно владеть смежной квалификацией, но при этом само по себе понимание работы смежника и готовность его подстраховать вовсе не означает «универсализацию специализаций» – нельзя быть автомехаником, лишь обладая навыками замены колеса. Интересный момент по поводу слияния специализаций по работе с данными отметил Артем Данилов, архитектор хранилища данных в Avito.ru. Менеджеры по работе с посетителями портала Avito, сказал он, владеют SQL, составляют визуальные отчеты и с помощью запросов к базе постоянно решают возникающие нестандартные задачи, что, впрочем, не делает их разработчиками платформы данных, поскольку хранилище и витрины создают все-таки профильные специалисты.

DataOps

Итак, по мнению участников дискуссии, чтобы «демократизировать» данные, нужно преобразовать как средства доступа к ним, так и способы управления данными, обеспечивающие коммуникации и интеграцию уже имеющихся данных, команд и систем. На решение этой задачи и направлена концепция DataOps — установление связи тех, кто собирает и готовит данные, с теми, кто их анализирует и применяет в бизнесе. Данные не принадлежат ИТ, специалистам по данным или аналитикам. Они принадлежит всему бизнесу, а инструменты самообслуживания должны позволять всем сотрудникам компании создавать собственные аналитические отчеты и визуализации, делясь своими открытиями с коллегами. В этой связи, как прогнозируют аналитики Gartner, уже в ближайшие годы 80% компаний из Global Fortune 1000 будут использовать в своей практике методологию DataOps.


Теги: Большие данные DevOps Agile Big Data 2018 DataOps
На ту же тему: