Gartner: не поддавайтесь на шумиху вокруг «озер данных»

20:32 04.08.2014 |   1670

Рубрика Автоматизация предприятий



Ряд поставщиков подают их как важнейший элемент инфраструктур обработки Больших Данных, но на сегодня нет ни универсального определения озер данных, ни единого представления о том, какую пользу они приносят.

Аналитики Gartner отмечают, что растущая шумиха вокруг «озер данных» (data lakes), неупорядоченных хранилищ информации, поступающей из различных источников и содержащейся в исходном формате, создает путаницу: ряд поставщиков рекламируют озера данных как важнейший элемент инфраструктур обработки Больших Данных, но на сегодня нет ни универсального определения озер данных, ни единого представления о том, какую пользу они приносят.

В Gartner поясняют, что обычно «озеро» преподносится как возможность исключить затраты на трансформацию данных перед помещением в хранилище и предоставить доступ к ним для анализа всем в организации. Однако учитывая, что информация в озере лишена консистентности и не сопровождается метаданными, ее анализ в реальности доступен лишь опытным экспертам, полагают в Gartner.

Кроме того, нет возможностей определить качество данных в таком неуправляемом хранилище и проследить происхождение выводов, сделанных с использованием данных из озера кем-то до вас. В результате, как отмечают в Gartner, без механизмов руководства озера угрожают превратиться в «болота». А учитывая, что информация «сливается» в озеро без проверки содержания, возможны также риски, связанные с экспозицией данных, подлежащих защите согласно нормативным требованиям, — по сведениям аналитиков, средства безопасности в системах организации озер данных на сегодня находятся в зачаточном состоянии.

Кроме того, возможны проблемы с быстродействием, полагают в Gartner: инструменты конечных пользователей попросту не способны обрабатывать данные с такой же скоростью, с какой это могут делать высокооптимизированные СУБД.

В конечном счете, полагают аналитики, в каждой организации должны выбрать для себя, что нужнее — доступность разнородных данных в озере для изучения экспертами по мере необходимости или анализ информации из заранее структурированного хранилища по стандартным алгоритмам.


Теги: Автоматизация предприятий Большие данные Gartner


На ту же тему: