Насколько велики большие данные?

Источник: computerra

Игорь Емельянов

Сколько уже копий сломано о тему больших данных! В сравнении с прочими популярными терминами, относящимися скорее к мобилизации и консьюмеризации рынка информационных технологий, Big Data - это, пожалуй, самая переоцененная тема последнего времени. Типичный buzzword, но все же достаточно запутанный, чтобы вокруг разворачивались большие дискуссии, конференции, семинары и симпозиумы.

Если трезво оценить ситуацию, то на деле получается, что основные "нагнетатели" информационного потока вокруг больших данных - это ИТ-вендоры, которые стремятся выгодно продать клиентам очередную "the big thing", прорывную технологию, которая позволит обскакать конкурентов. Большинство из них честно делает свою работу - анализирует ваши источники данных, собирает их, осуществляет пост-анализ, выдает релевантные данные для предупредительной аналитики. Но вот, скажем, внедрили вы больше данные. И что? Изменилось что-нибудь, получили ли вы те конкурентные преимущества, о которых все только и говорят вокруг? Скорее всего нет.

Прекрасный пример по-настоящему больших данных

К счастью, реальные практики больших данных - а именно ученные - настроены скептически. Это дает нам повод в очередной раз остановиться и задуматься - а так ли нам нужны все эти Big Data? Иллюстрируя эти раздумья мой коллега из Нью-Йорка, Кристофер Мимс задается еще одним интересным вопросом: а действительно ли вы имеете или планируете иметь дело с большими данными? Опять же, скорее всего нет. Более того, корпорации и основные точки современной карты глобальной Сети - Facebook и Yahoo еще не дошли до уровня больших данных. Пожалуй, только Google может похвастаться тем, что работает с большими данными. И то потому, что это часть ключевого бизнес-процесса компании.

В своей работе Facebook и Yahoo используют кластеры - группы мощных серверов для обработки данных. Если ваша компания работает с такими кластерами, то вероятно вы знаете о big data больше остальных. Но оказывается, что реальная необходимость в таких кластерах есть только у Google. Необходимость оценить и просчитать каждую страницу в Сети, которая возникает у поискового гиганта - это задача для серии кластеров. Остальные операции может пропустить через себя стандартный домашний компьютер.

Средний объем данных, вернее объем задачи, отправляемой на обработку в кластеры Facebook - от мегабита до гигабита. Что, как вы понимаете, задача для ноутбука - не для кластеров. В Yahoo средняя "задача" составляет 12.5 гигабит - ноутбук такую задачу не потянет, но мощный сервер с ней справится. Зачем тогда нужны кластеры и можно ли сказать, что Facebook и Yahoo работают с большими данными? Едва ли. Более того, существует великое множество задач, для которых кластеры являются попросту неэффективным решением. В своем недавнем отчете, вышедшем под шутливым названием "За покупку кластера еще никого не уволили" (Nobody ever got fired for buying a cluster), Microsoft Research объясняет, что даже в самых дата-ориентированных компаниях большинство задач просто не требует кластеров.

Кластеры Yahoo. Действительно ли они необходимы компании?

CIO сегодня сталкиваются с тем, что словосочетания "большие данные" и "анализ данных" превратились в синонимы. А это, конечно, плохо сказывается на эффективности работы с данными вообще. Вот Forbes недавно опубликовали материал "3 шага по внедрению больших данных в ваш малый бизнес" (3 Steps To Incorporate Big Data Into Your Small Business), на полном серьезе обсуждая необходимость в работе с большими объемами данных в небольших компаниях или стартапах. Примечателен комментарий, оставленный одним из читателей этого материала:

"Данные ваших последних 12 кампаний email-маркетинга - это не большие данные. Вы, вероятно, сможете записать их на компакт-диск. Научная проблема больших объемов данных стоит только для очень узкого круга компаний. Продолжать убеждать людей в необходимости больших данных бессмысленно, если описываемые вами проблемы могут быть проанализированы на iPad".

Действительно, для большинства компаний достаточно не больших, а малых данных. Руфус Поллок (Rufus Pollock) из Open Knowledge Foundation как развыдвигает термин "small data", называя это очередной революцией. Станет ли это революцией - трудно сказать, но малые данные Руфус определяет следующим образом: "Количество данных, которые вы можете легко разместить и обработать на одной машине - мощном лептопе или сервере". Почему именно лептоп? Потому, что главная идея, выдвигаемая основателем Open Knowledge Foundation заключается в том, что локальные и мобильные хранилища малых данных составляют отличную основу для совместной обработки такого количества данных, с которым реально имеет дело большинство предприятий.

Но вернемся к большим данным. Всегда ли они несут благо? Даже если опустить важнейший финансовый вопрос, то есть не говорить о средствах, которые вы затратите на внедрение. Главный аналитик компании Lithium, Майкл Ву (Michael Wu) заметил, что количество полезной информации, которую мы можем получить из больших данных уменьшается с ростом объема данных. Иными словами, в работе с big data всегда наступает такая точка, когда увеличивая входящий поток данных, вы получаете менее точные результаты.

Представьте, сколько взаимосвязей приходится исследовать, анализируя большие данные. Даже на небольших объемах информации количество взаимосвязей может достигнуть миллионов и многие из них оказываются важными для вас по банальной случайности. Если для принятия ключевых решений вы используете предупредительную аналитику, основанную на взаимосвязях, извлекаемых из больших данных, то ваши решения могут оказаться не самыми верными.

Так что нужно именно вам - большие или малые данные? Чтобы ответить на этот вопрос, нужно понять - нужны ли вам большие данные для принятия решений. Наука считает, что решения в бизнесе принимаются исходя из качества входящих данных, целей, интуиции и контекста. Помните, что Грегор Мендел открыл закономерности наследования, легшие в основу генетики, располагая количеством данных, которое помещалось в блокнот. Так что вопрос о данных состоит скорее в том, чтобы собирать правильные, а не большие или малые данные.

Ссылки по теме