«Хьюстон, у нас проблемы!»

Какие сложности существуют в области аналитики данных и как они решаются на практике.

Основные проблемы, которые сейчас встают перед компаниями, заключаются в своевременном и качественном анализе поступающих со все большей и большей скоростью все больших и больших объемов неструктурированных данных

Цифровые технологии и аналитика позволяют бизнесу в разы увеличить эффективность своей работы. Например, у российских компаний, по данным исследования IDC и Hitachi Vantara, на данный момент крайне востребованы анализ транзакционных данных (61%), клиентская (52%) и потоковая (51%) аналитика. При этом подавляющее большинство организаций все еще не в состоянии извлекать выгоду из растущего потока данных, а следование стратегиям конкретных успешных проектов не всегда приводит к положительным результатам. Попробуем разобраться, какие проблемы возникают при работе с большими данными и какие решения следует принимать для их ликвидации.

В фантастическом романе Кристофера Приста «Островитяне» описаны попытки жителей планеты с бесчисленным множеством островов, очертания которых невозможно увидеть с большой высоты, создать карту архипелагов с помощью информации, поступающей от дронов. Героиня эпизода, одна из команды исследователей, сетует, как она была наивна, полагая прежде, что дело не займет много времени: ежедневно к ним возвращаются сотни дронов с информацией, которая в лучшем случае будет обработана через несколько лет.

Этот эпизод служит наглядной иллюстрацией к целому ряду проблем, связанных с появлением в нашем мире больших данных. Условно их можно свести к «трем V»: слишком большой объем (volume), возникающий со слишком большой скоростью (velocity), очень разнородный по структуре (variety). Основные проблемы, которые сейчас встают перед компаниями, заключаются в своевременном и качественном анализе поступающих со все большей и большей скоростью все больших и больших объемов неструктурированных данных.

Впрочем, о «появлении» больших данных говорить не совсем корректно: данные появлялись всегда, и каждой эпохе рано или поздно приходилось что-то придумывать, чтобы переварить объем информации. Однако в век информационных технологий рост объема обретает поистине колоссальный размах: практически все, что происходит в мире, снимается на камеры, фиксируется разнообразнейшими датчиками — и превращается в петабайты информации. Эти петабайты и были названы большими данными.

Проблемное поле

Данные совместного исследования IDC и Hitachi Vantara показывают, что курс на аналитику данных есть не только у зарубежных, но и у российских компаний. Например, рост объема данных отмечают 78% респондентов (в ходе исследования были опрошены крупнейшие организации, штатная численность сотрудников в которых составляет 500 и более человек). При этом основными «поставщиками» данных считаются не внешние источники, как было принято думать раньше, а внутренние: рабочие переписки, различные бизнес-приложения, сервисы и т. п.

Анализ данных таких объемов требует высокопроизводительных вычислений, а значит, привлечения новых технологий и средств для их реализации. Обнаружить значимую информацию в огромном массиве данных стало одной из проблем больших данных, а получение новых знаний теперь зависит от правильного анализа. Компания, которая неправильно анализирует данные, может получить негативный опыт и решить, что ей это не нужно. Что, учитывая запросы потребителей, рано или поздно приведет к уходу с рынка.

Анализ больших данных связан еще с одной проблемой: чем больше данных, тем выше вероятность найти между ними ошибочные статистические связи, между тем как на самом деле эти совпадения случайны. Хороший пример приводит экономист, биржевой трейдер Нассим Талеб: «Если взять набор из случайно выбранных 200 переменных, которые никак не связаны между собой, и присвоить им 1000 информационных параметров, то будет практически невозможно не найти при дальнейшем анализе какое-то количество статистически обоснованных корреляций. Но на самом деле эти корреляции будут ложными, поскольку никакой связи между переменными никогда не было».

Есть и еще один вариант развития событий. Предприниматель может собрать целую команду экспертов, чтобы те находили верные связи и производили точный анализ, и они займутся этим с рвением профессионалов. Однако сплошной анализ всех поступающих данных не приведет ни к чему, если его не направлять, соотнося с целями бизнеса, а это уже задача руководителя. В статье Леандро Далле и Томаса Дэвенпорта «Какова ваша стратегия данных» утверждается, что организации активно используют при принятии решений менее 50% структурированных данных и менее 1% неструктурированных данных анализируется или используется в целом.

Рост объема данных отмечают 78% опрошенных представителей крупнейшх российских организаций

На практике данные поступают в разных форматах и зачастую распределены между несколькими источниками хранения информации. Обработка таких наборов данных происходит обычно в режиме поэтапного аналитического конвейера, включающего стадии преобразования и интеграции данных. Разнообразие форматов данных само по себе создает проблемы даже при не очень большом объеме, что способствует разработке соответствующих архитектур. Неструктурированные данные растут гораздо быстрее структурированных, а актуальность их обработки признают 85% российских компаний. Обрабатывать их лучше всего с применением технологии in-memory. На этой технологии, например, основан программно-аппаратный комплекс SAP HANA, позволяющий функционировать на данной платформе любым классам приложений.

Еще одной распространенной ошибкой предприятий, решившихся окунуться в большие данные, стали попытки работы с ними на устаревших платформах. Нежелание руководителей внедрять новые модели обработки информации приводит к торможению инфраструктуры и обессмысливанию нововведений. Понять такое нежелание нетрудно: стоит сменить наработанную технологию, как «придумают что-нибудь еще». Однако такая точка зрения экономически невыгодна, и руководителям следует быть более гибкими в отношении поддерживаемых технологий, тем более, что создаваемые платформы специально разрабатываются для успешного развития бизнеса. Многие современные технологии позволяют организовать сбор больших массивов данных в режиме реального времени, сохраняя при этом возможность работы с ними «на лету» и снижая вероятность их потерь.

Как отмечено в исследовании IDC и Hitachi Vantara, сейчас компании испытывают потребность в удобных и простых решениях. Дело в том, что со временем аналитика данных становится все более востребованной не только у отдельного подразделения, которое занимается, к примеру, разработкой стратегии предприятия, но и у всех сотрудников в целом. В связи с этим решения, позволяющие анализировать данные, должны быть доступны специалистам, у которых нет навыков работы в ИТ. Ожидается, что в дальнейшем эта тенденция сохранится.

Есть ли решение?

«Современные технологии уже справились с проблемами всех "трех V", — уверен Алексей Никифоров, руководитель подразделения технологических решений Hitachi Vantara. — Проблему объема решает хранилище объектов, не связанное с каталогами и потому безграничное. Так, например, Hitachi HCP (Hitachi Content Platform) может масштабировать объем данных во внутренних и внешних системах хранения, позволяет хранить множество неструктурированных данных, обеспечивает полностью интегрированный поиск метаданных по всем ресурсам данных с функцией классификации, обогащения и анализа всех имеющихся данных. Вместе с Hitachi Content Intelligence она обеспечивает интеллектуальное генерирование и сохранение метаданных».

Поскольку интернет-протокол, используемый в системах хранения, не может обрабатывать данные так же быстро, как напрямую вложенные файловые или блок-системы, крупные аналитические системы, такие как Hadoop или ETL, передавали данные на обработку в файловую систему, и Hadoop стал популярен среди крупных предприятий, несмотря на высокую стоимость хранения данных и исходящую из избыточности данных отказоустойчивость. В сравнении с ним HCP имеет более гибкие варианты хранения и обеспечивает более низкие затраты, а скорость обработки достигается с помощью виртуализации: благодаря сотрудничеству с Alluxio, HCP использует свою виртуальную распределенную файловую систему для доставки сертифицированного решения, упрощающего задачи подключения больших приложений данных, подобных Hadoop. Такая система значительно снижает затраты на хранение и предоставляет более быстрый доступ к данным.

Понятно, что при работе с устаревшей инфраструктурой ни на какую слаженность и быстроту операций с большими данными рассчитывать не приходится. Уже сейчас становится очевидным, что бизнес стремится создать глобальную структуру данных, которая смогла бы обеспечить полный доступ к данным из разных источников и многопользовательских систем. Многие эксперты в ближайшее время ожидают семикратного роста сегмента аналитики данных сравнительно со сферой ИТ в целом. Поэтому для руководителей предприятий крайне важно уже сейчас внедрять новейшую инфраструктуру и учиться разбираться в этих сложных и важных для цифровых компаний процессах.