(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Насколько велики большие данные?

Источник: computerra
Игорь Емельянов

Сколько уже копий сломано о тему больших данных! В сравнении с прочими популярными терминами, относящимися скорее к мобилизации и консьюмеризации рынка информационных технологий, Big Data - это, пожалуй, самая переоцененная тема последнего времени. Типичный buzzword, но все же достаточно запутанный, чтобы вокруг разворачивались большие дискуссии, конференции, семинары и симпозиумы.

Если трезво оценить ситуацию, то на деле получается, что основные "нагнетатели" информационного потока вокруг больших данных - это ИТ-вендоры, которые стремятся выгодно продать клиентам очередную "the big thing", прорывную технологию, которая позволит обскакать конкурентов. Большинство из них честно делает свою работу - анализирует ваши источники данных, собирает их, осуществляет пост-анализ, выдает релевантные данные для предупредительной аналитики. Но вот, скажем, внедрили вы больше данные. И что? Изменилось что-нибудь, получили ли вы те конкурентные преимущества, о которых все только и говорят вокруг? Скорее всего нет.

bigdata410_numrush

Прекрасный пример по-настоящему больших данных

К счастью, реальные практики больших данных - а именно ученные - настроены скептически. Это дает нам повод в очередной раз остановиться и задуматься - а так ли нам нужны все эти Big Data? Иллюстрируя эти раздумья мой коллега из Нью-Йорка, Кристофер Мимс задается еще одним интересным вопросом: а действительно ли вы имеете или планируете иметь дело с большими данными? Опять же, скорее всего нет. Более того, корпорации и основные точки современной карты глобальной Сети - Facebook и Yahoo еще не дошли до уровня больших данных. Пожалуй, только Google может похвастаться тем, что работает с большими данными. И то потому, что это часть ключевого бизнес-процесса компании.

В своей работе Facebook и Yahoo используют кластеры - группы мощных серверов для обработки данных. Если ваша компания работает с такими кластерами, то вероятно вы знаете о big data больше остальных. Но оказывается, что реальная необходимость в таких кластерах есть только у Google. Необходимость оценить и просчитать каждую страницу в Сети, которая возникает у поискового гиганта - это задача для серии кластеров. Остальные операции может пропустить через себя стандартный домашний компьютер.

Средний объем данных, вернее объем задачи, отправляемой на обработку в кластеры Facebook - от мегабита до гигабита. Что, как вы понимаете, задача для ноутбука - не для кластеров. В Yahoo средняя "задача" составляет 12.5 гигабит - ноутбук такую задачу не потянет, но мощный сервер с ней справится. Зачем тогда нужны кластеры и можно ли сказать, что Facebook и Yahoo работают с большими данными? Едва ли. Более того, существует великое множество задач, для которых кластеры являются попросту неэффективным решением. В своем недавнем отчете, вышедшем под шутливым названием "За покупку кластера еще никого не уволили" (Nobody ever got fired for buying a cluster), Microsoft Research объясняет, что даже в самых дата-ориентированных компаниях большинство задач просто не требует кластеров.

Yahoo-hadoop-cluster_OSCON_2007

Кластеры Yahoo. Действительно ли они необходимы компании?

CIO сегодня сталкиваются с тем, что словосочетания "большие данные" и "анализ данных" превратились в синонимы. А это, конечно, плохо сказывается на эффективности работы с данными вообще. Вот Forbes недавно опубликовали материал "3 шага по внедрению больших данных в ваш малый бизнес" (3 Steps To Incorporate Big Data Into Your Small Business), на полном серьезе обсуждая необходимость в работе с большими объемами данных в небольших компаниях или стартапах. Примечателен комментарий, оставленный одним из читателей этого материала:

"Данные ваших последних 12 кампаний email-маркетинга - это не большие данные. Вы, вероятно, сможете записать их на компакт-диск. Научная проблема больших объемов данных стоит только для очень узкого круга компаний. Продолжать убеждать людей в необходимости больших данных бессмысленно, если описываемые вами проблемы могут быть проанализированы на iPad".

Действительно, для большинства компаний достаточно не больших, а малых данных. Руфус Поллок (Rufus Pollock) из Open Knowledge Foundation как развыдвигает термин "small data", называя это очередной революцией. Станет ли это революцией - трудно сказать, но малые данные Руфус определяет следующим образом: "Количество данных, которые вы можете легко разместить и обработать на одной машине - мощном лептопе или сервере". Почему именно лептоп? Потому, что главная идея, выдвигаемая основателем Open Knowledge Foundation заключается в том, что локальные и мобильные хранилища малых данных составляют отличную основу для совместной обработки такого количества данных, с которым реально имеет дело большинство предприятий.

Но вернемся к большим данным. Всегда ли они несут благо? Даже если опустить важнейший финансовый вопрос, то есть не говорить о средствах, которые вы затратите на внедрение. Главный аналитик компании Lithium, Майкл Ву (Michael Wu) заметил, что количество полезной информации, которую мы можем получить из больших данных уменьшается с ростом объема данных. Иными словами, в работе с big data всегда наступает такая точка, когда увеличивая входящий поток данных, вы получаете менее точные результаты.

SmallData

Представьте, сколько взаимосвязей приходится исследовать, анализируя большие данные. Даже на небольших объемах информации количество взаимосвязей может достигнуть миллионов и многие из них оказываются важными для вас по банальной случайности. Если для принятия ключевых решений вы используете предупредительную аналитику, основанную на взаимосвязях, извлекаемых из больших данных, то ваши решения могут оказаться не самыми верными.

Так что нужно именно вам - большие или малые данные? Чтобы ответить на этот вопрос, нужно понять - нужны ли вам большие данные для принятия решений. Наука считает, что решения в бизнесе принимаются исходя из качества входящих данных, целей, интуиции и контекста. Помните, что Грегор Мендел открыл закономерности наследования, легшие в основу генетики, располагая количеством данных, которое помещалось в блокнот. Так что вопрос о данных состоит скорее в том, чтобы собирать правильные, а не большие или малые данные.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 20.05.2013 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
The BAT! Professional - 1 компьютер
ESET NOD32 Антивирус на 1 год для 3ПК или продление на 20 месяцев
Quest Software. SQL Navigator Professional Edition
ZBrush 4R6 Win Commercial Single License ESD
ABBYY Lingvo x6 Многоязычная Профессиональная версия, электронный ключ
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
СУБД Oracle "с нуля"
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
Adobe Photoshop: алхимия дизайна
Краткие описания программ и ссылки на них
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100