(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Сэмюэль Арбесман: Пять мифов о Big Data

Источник: ibusiness

Методики и технологии анализа больших массивов данных - Big Data - обещают возможность лучше понять деловой мир. Но сфера деятельности, связанная с изучением огромного количества информации, полна заблуждений, утверждает математик Сэмюэль Арбесман, развенчивая пять самых распространенных мифов в своей статье для The Washington Post.

Миф 1. Big Data имеет четкое определение

Термин Big Data появился, по крайней мере, в 1990-х г.г. и возник, как я полагаю, в Кремниевой долине. IBM предлагает, казалось бы, простое определение: "Big Data предполагает наличие четырех V: объема, разнообразия, скорости и достоверности (volume, variety, velocity and veracity)" . Однако термин этот применяется во множестве контекстов: в науке, маркетинге, политике, спорте, - что делает его расплывчатым и неоднозначным.

В частности, есть много споров: можно ли обрабатывать Big Data на домашнем компьютере? Если это так, зачем нужны маркетинговые аналитики? Можно ли считать работой с Big Data анализ данных, если не используются инструменты из области искусственного интеллекта?

Может ли такой узконаправленный метод быть описан одним термином для понимания настолько сложных и разнообразных явлений, как это пытаются сделать ученые? Есть слишком много путаницы, и отраслевые эксперты и ученые зачастую говорят противоположные вещи.

Миф 2. Big Data - это нечто новое

Как я понимаю, метод Big Data появился на сцене совсем недавно. "Если бы аналитики были модницами, Big Data был бы самым горячим предложением в этом сезоне", - пошутили в Reuters в прошлом году. В майском докладе 2011 г. McKinsey Global Institute объявил Big Data следующим рубежом инноваций, конкуренции и производительности.

Правда в том, что сегодня мы можем обрабатывать большие объемы данных - текстовых, социальных, научных - с помощью сложных алгоритмов и вычислительных мощностей. Но большие объемы информации присутствовали вокруг нас в течение долгого времени. Например, мы имеем дело с огромным объемом лингвистических данных почти 800 лет.

Другое дело, что раньше методы компиляции данных и их изучения были более сложными и трудоемкими.

Алфавитные указатели для Библии, в сущности, использовали некоторые из тех методов анализа, которые мы применяем сегодня. Наука тоже использует Big Data в течение некоторого времени. В начале 1600-х Иоганн Кеплер использовал подробные астрономические данные Тихо Браге, чтобы описать некоторые законы движения планет. Астрономия в эпоху Sloan Digital Sky, конечно, отличается, но это по-прежнему астрономия.

Спросите статистиков, и они скажут вам, что они проводили анализ больших объемов данных на протяжении веков. Как они любят утверждать, Big Data - это просто расширенная версия статистического анализа, использующая новые инструменты.

Миф 3. Методы Big Data - это революция

В своей новой книге "Big Data: революция, которая изменила то, как мы живем, работаем и думаем" Виктор Майер-Шонбергер и Кеннет Цукер сравнили по значимости появление Big Data с изменениями, которые произошли с появлением типографии Гутенберга.

Однако Big Data имеет скромное влияние на повседневную жизнь.  Если какое-либо явление или эффект имеет большой размер, мы обычно не нуждаемся в Big Data, чтобы понять и признать это, а наука, кстати, традиционно сосредоточена именно на таких явлениях.

Big Data помогают, когда необходим более тонкий анализ. Это рождает такие мелкие куски знаний, как, например, более эффективные способы лечения какой-то болезни. Но является ли такой подход революционным? Наверное, нет.

Миф 4. Чем больше данных - тем лучше

В науке производится анализ умопомрачительно больших объемов данных. В некоторых бизнес-компаниях считают, что необходимо охватить больший объем данных, чем это делают конкуренты. Но это не приведет  автоматически к успеху.

Большой объем данных может создать беспорядок. Если исследователи и аналитики не смогут уменьшить число переменных и сделать их более управляемыми, они получат количество без качества.

И давайте не будет забывать о субъективности. Есть распространенное убеждение, что большие объемы информации легче анализировать. Но если речь идет о субъективности и предвзятости, проявленной при сборе данных и их исследовании, никакой большой объем не поможет.

Многие интересные проблемы могут быть изучены и решены с привлечением небольшого набора данных. Например, анализ данных Facebook помог сформулировать идею о Four Degrees of Separation [это означает, что большинство людей знакомы с другими посредством четырех социальных контактов - iBusiness.ru]. Однако впервые этот феномен был открыт психологом Стенли Милгремом и известен как Six Degrees of Separation ("Шесть степеней удаленности"), или "Шесть рукопожатий" (имеется в виду, что каждого человека на планете с другим человеком связывает цепочка из шести знакомых). Для этого ему потребовались только размышления и некоторое количество почтовых открыток.

Часто чтобы понять суть явлений, необходим не только большой набор данных, но и знание об их изменениях в течение длительного промежутка времени.

Миф 5. Big Data означает конец научных теорий

В 2008 году Крис Андерсон утверждал, что изучение больших объемов данных делает обычные научные методы устаревшими: достаточно проанализировать их - и взаимосвязи и отношения становятся понятными. Вы все поймете. Но вы не можете просто-напросто использовать методы корреляционного анализа, чтобы объяснить мир. Если вы не будете осторожны, в конечном счете, вы получите неверную корреляцию. Идеи, гипотезы и теории все еще нужны. Если у вас их нет - ваши результаты будут глупыми и бессмысленными.



Автор - американский математик, изучающий сети коммуникации, старший исследователь Фонда Эвина Мариона Кауффмана (Ewing Marion Kauffman Foundation).

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 12.09.2013 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Symantec Endpoint Encryption, License, 1-24 Devices
Microsoft Office 365 Персональный 32-bit/x64. 1 ПК/MAC + 1 Планшет + 1 Телефон. Все языки. Подписка на 1 год.
TeeGrid VCL/FMX Source Code single license
Quest Software. TOAD for SQL Server Xpert Edition
Stimulsoft Reports Server Team 10 users
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Новости ITShop.ru - ПО, книги, документация, курсы обучения
CASE-технологии
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
СУБД Oracle "с нуля"
Один день системного администратора
Проект mic-hard - все об XP - новости, статьи, советы
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100