Сэмюэль Арбесман: Пять мифов о Big Data

Источник: ibusiness

Методики и технологии анализа больших массивов данных - Big Data - обещают возможность лучше понять деловой мир. Но сфера деятельности, связанная с изучением огромного количества информации, полна заблуждений, утверждает математик Сэмюэль Арбесман, развенчивая пять самых распространенных мифов в своей статье для The Washington Post.

Миф 1. Big Data имеет четкое определение

Термин Big Data появился, по крайней мере, в 1990-х г.г. и возник, как я полагаю, в Кремниевой долине. IBM предлагает, казалось бы, простое определение: "Big Data предполагает наличие четырех V: объема, разнообразия, скорости и достоверности (volume, variety, velocity and veracity)" . Однако термин этот применяется во множестве контекстов: в науке, маркетинге, политике, спорте, - что делает его расплывчатым и неоднозначным.

В частности, есть много споров: можно ли обрабатывать Big Data на домашнем компьютере? Если это так, зачем нужны маркетинговые аналитики? Можно ли считать работой с Big Data анализ данных, если не используются инструменты из области искусственного интеллекта?

Может ли такой узконаправленный метод быть описан одним термином для понимания настолько сложных и разнообразных явлений, как это пытаются сделать ученые? Есть слишком много путаницы, и отраслевые эксперты и ученые зачастую говорят противоположные вещи.

Миф 2. Big Data - это нечто новое

Как я понимаю, метод Big Data появился на сцене совсем недавно. "Если бы аналитики были модницами, Big Data был бы самым горячим предложением в этом сезоне", - пошутили в Reuters в прошлом году. В майском докладе 2011 г. McKinsey Global Institute объявил Big Data следующим рубежом инноваций, конкуренции и производительности.

Правда в том, что сегодня мы можем обрабатывать большие объемы данных - текстовых, социальных, научных - с помощью сложных алгоритмов и вычислительных мощностей. Но большие объемы информации присутствовали вокруг нас в течение долгого времени. Например, мы имеем дело с огромным объемом лингвистических данных почти 800 лет.

Другое дело, что раньше методы компиляции данных и их изучения были более сложными и трудоемкими.

Алфавитные указатели для Библии, в сущности, использовали некоторые из тех методов анализа, которые мы применяем сегодня. Наука тоже использует Big Data в течение некоторого времени. В начале 1600-х Иоганн Кеплер использовал подробные астрономические данные Тихо Браге, чтобы описать некоторые законы движения планет. Астрономия в эпоху Sloan Digital Sky, конечно, отличается, но это по-прежнему астрономия.

Спросите статистиков, и они скажут вам, что они проводили анализ больших объемов данных на протяжении веков. Как они любят утверждать, Big Data - это просто расширенная версия статистического анализа, использующая новые инструменты.

Миф 3. Методы Big Data - это революция

В своей новой книге "Big Data: революция, которая изменила то, как мы живем, работаем и думаем" Виктор Майер-Шонбергер и Кеннет Цукер сравнили по значимости появление Big Data с изменениями, которые произошли с появлением типографии Гутенберга.

Однако Big Data имеет скромное влияние на повседневную жизнь. Если какое-либо явление или эффект имеет большой размер, мы обычно не нуждаемся в Big Data, чтобы понять и признать это, а наука, кстати, традиционно сосредоточена именно на таких явлениях.

Big Data помогают, когда необходим более тонкий анализ. Это рождает такие мелкие куски знаний, как, например, более эффективные способы лечения какой-то болезни. Но является ли такой подход революционным? Наверное, нет.

Миф 4. Чем больше данных - тем лучше

В науке производится анализ умопомрачительно больших объемов данных. В некоторых бизнес-компаниях считают, что необходимо охватить больший объем данных, чем это делают конкуренты. Но это не приведет автоматически к успеху.

Большой объем данных может создать беспорядок. Если исследователи и аналитики не смогут уменьшить число переменных и сделать их более управляемыми, они получат количество без качества.

И давайте не будет забывать о субъективности. Есть распространенное убеждение, что большие объемы информации легче анализировать. Но если речь идет о субъективности и предвзятости, проявленной при сборе данных и их исследовании, никакой большой объем не поможет.

Многие интересные проблемы могут быть изучены и решены с привлечением небольшого набора данных. Например, анализ данных Facebook помог сформулировать идею о Four Degrees of Separation [это означает, что большинство людей знакомы с другими посредством четырех социальных контактов - iBusiness.ru]. Однако впервые этот феномен был открыт психологом Стенли Милгремом и известен как Six Degrees of Separation ("Шесть степеней удаленности"), или "Шесть рукопожатий" (имеется в виду, что каждого человека на планете с другим человеком связывает цепочка из шести знакомых). Для этого ему потребовались только размышления и некоторое количество почтовых открыток.

Часто чтобы понять суть явлений, необходим не только большой набор данных, но и знание об их изменениях в течение длительного промежутка времени.

Миф 5. Big Data означает конец научных теорий

В 2008 году Крис Андерсон утверждал, что изучение больших объемов данных делает обычные научные методы устаревшими: достаточно проанализировать их - и взаимосвязи и отношения становятся понятными. Вы все поймете. Но вы не можете просто-напросто использовать методы корреляционного анализа, чтобы объяснить мир. Если вы не будете осторожны, в конечном счете, вы получите неверную корреляцию. Идеи, гипотезы и теории все еще нужны. Если у вас их нет - ваши результаты будут глупыми и бессмысленными.

Автор - американский математик, изучающий сети коммуникации, старший исследователь Фонда Эвина Мариона Кауффмана (Ewing Marion Kauffman Foundation).