Большие Данные
 

Большие Данные

Кристиан Дорначер

Большое путешествие Больших данных: как и для чего мы можем хранить и анализировать их?

Работать с Большими данными – технологией, способной полностью изменить бизнес-модель предприятия – умеет далеко не всякий. О том, как быть компаниям, в которых нет ресурсов, необходимых для продуктивного анализа накопившейся информации, рассказал Кристиан Дорначер (Christian Dornacher), директор Hitachi Data Systems в области решений для хранения и аналитики EMEA.

– Кристиан, начнем с самого насущного вопроса. Какое развитие (или, наоборот, стагнация) ожидает Большие данные в 2016 году?

– Интерес к Большим данным со стороны рынка, несомненно, растет. Многие наши текущие и потенциальные клиенты ищут способы анализа скопившихся у них данных. Hitachi Data Systems как разработчик решений сейчас больше интересуется именно способами извлечения прибыли из уже имеющейся у наших заказчиков информации. Они хотят иметь технологию, которая бы помогла им лучше узнать своих клиентов, четче обрисовать их покупательские предпочтения – в наступившем году Большие данные будут использоваться именно для создания такой технологии. Еще одна тенденция – расширение спектра источников данных: например, информация из социальных сетей помогла бы значительно расширить представление о целевой аудитории того или иного продукта. В целом, Большие данные – это мощный рычаг давления на бизнес, но не в негативном, а в позитивном смысле: с их помощью предприятия переходят на новые бизнес-модели с новыми методами общения с клиентом, с курсом на создание новых услуг.

– Какие отрасли испытывают потребность в таких технологиях в первую очередь?

– Серьезный интерес мы видим со стороны крупных телекоммуникационных компаний: им нужны средства аналитики, которые помогли бы оценить работу сети с точки зрения уровня обслуживания и понять, какие еще услуги необходимы клиентам. С позиции развития маркетинга в сторону Больших данных смотрят и производители автомобилей – им, кроме того, интересны перспективы выхода на рынок машин, полностью подключенных к Сети. Энергетическая отрасль, в свою очередь, изучает возможности более качественного управления энергетическими сетями, в том числе и интеллектуальными сетями энергосбережения. В последнее время проявляют активность и страховые компании. В их бизнесе многое зависит от страны, от того, существуют ли в то или ином государстве юридические препятствия для доступа к данным.

– Говоря о Больших данных, на ум сразу приходит термин «Озеро данных» («Data Lake»). Что это за технология и как она работает?

– «Озером Данных» называют своего рода масштабируемую архитектуру. А говоря «масштабируемая архитектура», я подразумеваю нечто, что может начинаться с небольших размеров и постепенно дорастать до базы данных объемом в несколько петабайт. А Большие данные – это, как правило, именно петабайты информации. Мы обсуждаем с заказчиками «Озеро Данных» размером 20 петабайт, 50 петабайт и 200 петабайт, а для этого нужна архитектура, обладающая достаточной масштабируемостью. Внутри этого «Озера» предприятию, скорее всего, потребуется хранить информацию самых различных типов. В прошлом, если заказчику приходилось заниматься аналитикой, у него, по сути, была собственная база данных, хранилище данных. Информации там, конечно, было мало – зато это была в высшей степени структурированная информация. С приходом Больших данных собираемая предприятиями информация стала неструктурированной: заказчики хотят получать данные из социальных сетей, видеоролики, голосовые и звуковые данные. Сегодня мы имеем дело со множеством источников данных, и для того, чтобы проанализировать всю накопленную информацию, ее необходимо интегрировать, собрать воедино. Вот поэтому мы и идем к созданию «Озер Данных» - там все это становится реальным.

– С темой Больших данных связано недавно выпущенное решение Hitachi Scale-Out Platform (HSP). Ваша компания анонсирует его как качественно новое инфраструктурное решение, платформу абсолютно нового типа. Какие возможности открывает это решение и чем оно отличается от предыдущих разработок Hitachi?

– Мы с вами уже обсудили «Озера Данных» и тот огромный объем информации, которую нашим заказчикам необходимо хранить и обрабатывать, сказали о том, что для работы с ними необходимы новые технологии. Идея HSP состоит, как раз в том, чтобы объединить хранилище, сетевые элементы и вычислительные компоненты в рамках одной конвергентной платформы. Можно сказать, что решение призвано выполнить стратегическую задачу современного бизнеса: ускорить получение ценной аналитики, обеспечить быструю окупаемость инвестиций и сделать работу ИТ-инфраструктуры проще и понятнее. Но это еще и довольно необычная платформа: в основе ее программной модели лежат не только технологии Hitachi, но и разработки нашей дочерней компании Pentaho. Кстати, это не единственное решение, созданное на стеке двух технологий: сегодня HDS использует инновационные достижения других компаний группы Hitachi, чтобы анализировать потоковые данные, поступающие с видеокамер, из локальных сетей, с антенных устройств, а так же данные техники и транспорта, например, с карьерных самосвалов или поездов. Наконец, все это необходимо для того, чтобы создавать прогнозные модели, позволяющие выполнять профилактическое обслуживание готовых решений. Такие же разработки легли в основу и платформы HSP. Это и хранилище данных и вычислительная мощность в одном решении, к тому же, технология распределения его задач позволяет проводить вычисления там, где находятся данные, не тратя лишнее время на перемещение данных по кластерам.

- Какие именно преимущества дает этой технологии Pentaho? Без объединения разработок работа с Большими данными была бы более сложной?

Интеграция с Pentaho дает решению доступ к нескольким сотням различных источников информации помимо классических источников данных для бизнес-анализа. Вместо того, чтобы проникать в большие базы данных, теперь мы «разговариваем» с Твиттером, извлекаем информацию из Facebook, из архивов и массы других источников. Фактически, теперь мы даже можем создать «Озеро данных», которое будет хранить сведения об этих источниках информации, работать с аналитическими данными и создавать собственные аналитические приложения. Говоря о достоинствах Pentaho, следует вспомнить, что большинство других инструментов представляют аналитику как очень сложную задачу, требующую вмешательства экспертов по данным и других специалистов, которых сейчас не найти на рынке. Pentaho, напротив, делает интерфейс управления решением таким простым, что сотрудник ИТ-службы может легко направлять и корректировать аналитический процесс со своего компьютера, очень быстро.

– И все же вопрос о необходимости появления на рынке новых специалистов, экспертов по данным, своего рода «Data Scientist» стоит ребром. Что вы думаете об этом?

– Я думаю, что этих самых экспертов по данным отыскать на рынке сейчас, действительно, сложнее всего. Во-первых, по-настоящему компетентных специалистов в этой области очень мало. А во-вторых, если таких и можно найти, то они, скорее всего, уже имеют отличную работу: услуги Data Scientist сегодня стоят очень дорого. Любой проект, основанный на работе Больших данных, может занять месяцы, а то и годы: и все это время, с момента внедрения инфраструктуры до создания аналитического процесса и получения первых результатов, вам будет требоваться помощь человека, знающего, как и по каким критериям «извлекать» пользу из данных. Так вот, идея Pentaho решает проблему отсутствия времени и специалистов. С помощью такого решения компании, которые никогда не имели дела с Большими данными, могут смело приступать к работе с ними. Время от подключения технологии до появления первых результатов сокращается с шести месяцев до 4-6 недель – а это огромный прогресс для аналитического процесса. Аналитика на платформе HSP позволяет воспользоваться всеми преимуществами виртуализации: в системе могут работать одновременно несколько аналитических заданий, функционирующих в пределах одного и того же «Озера данных». К примеру, это могут быть несколько виртуальных машин, генерирующих месячную и квартальную отчетность для постпродажных процессов, параллельно с которыми могут работать другие аналитические приложения, рассчитывающие модели поведения клиентов и уровень их удовлетворенности. Это уже не просто аналитика, это ответы на проблемные вопросы любого предпринимателя: «Не следует ли предложить клиентам новую услугу, не возникает ли у них проблем с каким-то продуктом?». Иначе говоря, HSP – та самая технология, что позволяет восполнить нехватку знаний или дефицит специалистов, способных грамотно решать аналитические задачи.

У Вас возникли вопросы по большим данным и интернету вещей?
Опрос по применению
флэш-технологий

Ознакомьтесь
с материалами

Продуктовая брошюра HDS 2015
Скачать PDF
Для корркетного отображения сайта включите JavaScript!
Для корркетного отображения сайта обновите браузер:
Для корркетного отображения сайта включите JavaScript!
Для корркетного отображения сайта обновите браузер: