Прогнозы и перспективы развития больших данных

Источник: interface

Евгения Маркова

Понятие Big Data, его популяризация и коммерческое применение пришлись на конец прошлого года и на этот год. И причина тому - возросшая востребованность и широкое использование облачных технологий на рынке IT.

Раньше мало кто мог себе позволить приобрести дорогостоящую технику для эффективной работы с Big Data, но теперь, когда появилась возможность арендовать мощный вычислительный кластер, например в AWS, подобные расчеты стали доступны для всех заинтересованных в обработке структурированных и неструктурированных данных огромных объёмов для получения ценной информации. И теперь, чуть ли не все пытаются выяснить, как при помощи Big Data ее добыть.

Итак, чего стоит ожидать в ближайшем будущем от индустрии больших данных, денег и компьютеров?

Востребованность Hadoop

Слышали ли вы о Hadoop? Если нет, то не беспокойтесь, скорее всего, в следующем году все кому не лень будут обсуждать новости, имеющие к нему отношение…

Почему? Хотя бы потому что, что на сегодняшний день - это самая передовая программная архитектура (открытая и бесплатная к тому же) для построения и обработки баз данных неограниченного размера. То есть, идеальный фундамент для обработки задач масштаба Big Data, когда одно задание может обрабатываться несколькими серверами в разных концах мира, и обращаться к базе данных распределенной по нескольким датацентрам в других концах мира.

Сам по себе, Hadoop - это движок потоковой обработки задач, а иными словами, просто инструмент, которому необходимо найти достойное применение. Некоторые компании, например, такие как Amazon Web Services, Mortar Data, Infochimps уже принялись разрабатывать облачный сервис, основанный на Hadoop, а вскоре, по слухам, за ними собираются последовать и другие, в частности, VertiCloud и Microsoft Azure HDInsight.

Но едва ли это будет единственным применением. Множество вновь появившихся компаний, строящих свой бизнес либо на основе новых инновационных идей, либо только что появившихся технологий, т.е. стартапы, сейчас ищут способы превращения Hadoop в готовый инструмент обработки информации.

Известно, что вычислительная мощность сама по себе не интересна, если её невозможно применить к конкретной задаче, а приложений, которые способны раскрыть потенциал Hadoop пока не так уж и много. В этом направлении сейчас уже работают такие компании, как Continuuity, Platfora, Drawn to Scale. Но лиха беда начало… Первый "брошенный в воду камень", а иными словами, успешно реализованный кейс, отзовется кругами по воде, т.е. привлечет к этому направлению все больше и больше новых разработчиков.

Исходя из таких предпосылок, можно утверждать, что в ближайшие месяцы мы увидим новые варианты применения фреймворков на базе Hadoop, в том числе для работы в реальном времени или посредством подгрузки данных (стриминга).

Впрочем, сфера применения Hadoop не ограничивается MapReduce (фреймворком для вычисления задач с использованием большого количества компьютеров, образующих кластер).
Ожидается, что развитие таких проектов как Drill and Impala, YARN дадут толчок использованию Hadoop в качестве фреймворка в компаниях, которым нужны мощные и надежные вычислительные инструменты: промышленных консорциумах, банках, нефтегазовых компаниях и т.д.

Подводя итог, можно отметить, что на сегодняшний день существуют несколько вычислительных платформ Big Datа, Hadoop является не самой лучшей из них, но наиболее востребованной и на неё сделали ставку уже очень многие крупные игроки. Она пришла на рынок IT "всерьез и надолго".

Союз Google с "наследником Эдисона"

Одним из фундаментальных объектов исследований компании Google является искусственный интеллект. Известно, что многие из существующих или разрабатываемых проектов Google опираются на огромные вычислительные мощности и массивы данных, чтобы предсказывать будущее. Но не в астрологическом смысле, а в практическом. Например, Android сервиса Google Now, продукт по предсказанию погоды, ярчайшее тому подтверждение.

Эксперты рынка возлагают большие надежды на то, что сотрудничество Рея Курцвейл, которого называют не иначе, как "наследником Эдисона" с компанией Google, этим мощнейшим вычислительным кластером планеты, окажется на редкость плодотворным и вместе они создадут какой-нибудь шедевр в сфере обработки больших данных, чем немало потрясут и удивят мир IT. Предпосылки к этому уже имели место быть, предсказания Курцвейла о слиянии человека и машины, с каждым днем выглядят все правдоподобнее…

Большие данные вокруг нас

Обычно, когда мы пишем о Big Data, мы подразумеваем что-то содержащее терабайты/петабайты данных, информацию о тысячах людей мало интересные кому-либо, кроме специалистов. Но это не так.

Подумайте о данных, которые мы создаем каждый день простым фактом нашего существования, общения, работы. Сколько времени мы проводим за чтением новостей, какое расстояние пробегаем, сколько в среднем живем и каковы наши зарплаты, как часто болеем и радуемся жизни? Все эти данные уже собираются множеством разных сервисов. Чего нам сейчас не хватает, так это механизма анализа, который мог бы выделить в море цифр тенденции, закономерности и дать нам конкретные советы и рекомендации. Не все обладают навыками аналитика, и еще меньшее число людей хотят этому учиться. А развитие прогресса во многих областях уже сумело заменить человеческий труд, на труд машинный. И нет сомнения в том, что компьютеры, призванные во многом облегчить нашу с вами жизнь, вскоре и в этом нам помогут. Это лишь вопрос времени.