Big Data в России: оцениваем возможности и риски

Михаил Демидов

Бизнес все чаще оперирует огромными объемами неструктурированных данных - именно здесь мы встречаем термин Big Data. Сегодняшнее положение дел ставит компании на перепутье - начать использовать специальные решения из этой области прямо сейчас или, опасаясь рисков, отложить на перспективу. О том, в чем плюсы и минусы обоих вариантов, а также о существующем ПО и успешных проектах говорили участники круглого стола"Big Data: возможность или необходимость", организованного CNews Analytics и CNews Conferences.

Новые вызовы времени, которые диктуются бизнесу постоянно усложняемыми ИТ-системами и возрастающими запросами на аналитику данных, сейчас активно продвигаются под названием Big Data ("большие данные"). Тем не менее, как и в случае с "облаками", такое определение не содержит в себе технического аспекта, поэтому многие ИТ-специалисты воспринимают его как сугубо маркетинговое понятие. Впрочем, независимо от этого сама отрасль Big Data уже сейчас стала одной из самых динамично растущих - по оценкам IDC, ежегодно объемы хранящихся данных будут увеличиваться на 40% и к 2015 году рынок технологий и сервисов для обработки больших данных рынок рубеж в 16,9 млрд долларов (сейчас он составляет около 7 млрд долларов). Таких же прогнозов придерживается и Gartner, считающая, что Big Data к 2014 году станет локомотивом ИКТ-отрасли, и уже сейчас называющая их одним из самых ключевых технологических направлений в 2013 году.

На круглом столе "Big Data: возможность или необходимость" эксперты, вендоры и представители ИТ-сообщества из разных отраслей - банковского сектора, госкомпаний, ритейла - обсуждали текущие и будущие тренды Больших данных, а также успешные кейсы. Участники сошлись в одном: российский заказчик еще слишком с недоверием смотрит на подобные новшества, ограничиваясь пилотными проектами. Так, одной из горячих тем, инициированных докладом Олега Гиацинтова, технического директора DIS Group, стало применение технологии аналитики Hadoop.

Полемика разгорелась вокруг восприятия ее зрелости и целесообразности использования в отечественных компаниях - так, в России одной из самых известных организаций, работающих с ней, является Mail.ru Group, в то время как в других интернет-компаниях ее не применяют, задействуя или собственные разработки (как, например, "Яндекс"), или не рассматривая пока Big Data как необходимость. За рубежом же Hadoop уже более 10 лет используется Amazon (в AWS), а также крупнейшими Веб 2.0 проектами (Facebook, Twitter, Google). В докладе спикера прозвучали детали проекта Big Data Hadoop в "Вымпелкоме" (оптимизация подготовки данных для отчетов по продажам): слушатели узнали, с какими сложностями сталкивались интегратор и оператор (скорость обработки, сбои БД, трудности масштабирования и перераспределения нагрузок), а также реальные экономические и технические преимущества и результаты проекта.

 Big Data де-факто излишние

Эксперты признают, что цифровизация бизнеса охватила сейчас абсолютно все отрасли. Тем не менее, Big Data находится только на самом начальном этапе становления в мировом масштабе. Апробация технологии совершается преимущественно на развитых рынках и крупными игроками (из финансовой среды и телекома), которые имеют соответствующие задачи и потребности. Так, к примеру, Big Data в банке HSBC, используемые в составе решения для препятствования мошенничеству с кредитными картами, позволили повысить эффективность службы безопасности в 3 раза, а точность распознавания инцидентов - в 10 раз. В денежном эквиваленте подобная экономия обернулась суммой в более чем 10 млн долларов (столько незаконных денег "прокручивалось" в незаконных схемах криминальными структурами).

В России же такие истории успеха отсутствуют, поскольку сами проекты по внедрению находятся на стадии прототипа, реже - пилота, и ни один из них не завершен. Так, среди пользователей Big Data сейчас можно назвать банки "Санкт-Петербург" и ВТБ24, а также Сбербанк и телеком-компанию "Скартел". В обозримом будущем к ним должны примкнуть госкомпании - с одной стороны, это будут ведомства, подключенные к СМЭВ, с другой стороны, потребители "государственных облаков". Вместе с тем, дополнительно Big Data может сыграть значимую роль в деле информатизации и автоматизации (как первичной, так и продолжающейся) госкорпораций - так, например, о переходе к таким технологиям "от простого Excel" заявил в ходе своего выступления Сергей Кирюшин, заместитель гендиректора ФГУП "Почта России". По его словам, отечественный почтовый оператор продолжит реализовывать существующую стратегию развития мультиканального ритейлера, поэтому установит решение MS Axapta for retail в течение ближайших 3 лет в своих 42 тысячах отделений по всей стране.

Олег Гиацинтов, технический директор DIS Group рассказал о применении технологии аналитики Hadoop

О перспективах использования Big Data в госсекторе заявил в своей презентации и Алексей Романов, директор ГАУ РМ "Госинформ" из Саранска. Специалист подробно рассмотрел существующую схему взаимодействия ведомств на базе реализуемой "Ростелекомом" "облачной" платформе, после чего перешел к описанию регионального проекта "электронного правительства" в республике Мордовия.

 Где прячутся деньги?

 Коммерциализация Big Data проектов, несмотря на их декларируемую экономическую эффективность и целесообразность, по-прежнему является камнем преткновения для многих вендоров. Все они понимают, что оказываются в независящим от них цифровом мире, где бизнес захлебывается в возрастающих объемах неструктированных данных, требуя "раскладки их по полочкам" с функциями аналитики и прогнозирования, но реальная статистика продаж пока более чем скромная. В докладе Сергея Золотарева, директора направления Большие данные EMC Россия и СНГ, как раз и была поднята тема успешности вендоров, занимающихся Big Data. Золотарев привел в качестве примера скачкообразный рост создаваемого контента во всем мире за последние 11 лет (2 экзабайт в год в 2000 до 5 экзабайт в день в 2011), а также объяснил, что подобная ситуация возникла вследствие ориентации на приложения, генерирующие вокруг себя множество информации, под которую начала создаваться соответствующих масштабов инфраструктура. Теперь, по его словам, перемещать данные из-за этого стало непрактично - при существующих каналах связи 10 ПБ копируются 10 дней. В итоге парадигма изменилась, и сейчас ИТ-мир ориентируется именно на данные, а не приложения, а за счет Big Data-технологий доступ к ним становится легче и быстрее для решения массовых задач прогностирования, аналитики, отчетности и статистики и так далее. В качестве примера он привел возможности фирменной платформы EMC Greenplum, которая имеет большой задел по масштабированию и при этом работает на достаточно недорогом "железе". Примечательно, что спикер обозначил одного из российских клиентов, уже начавших пользоваться EMC Greenplum - это банк ТКС.

Тема применения Big Data в банках звучала и в докладах Сергея Анохина, вице-президента и заместителя директора финдепартамента ВТБ24, Кирилла Лядова, руководителя центра BI Home Credit Bank, а также начальника ИТ-департамента Росэнергобанка Леонида Белышкова. Господин Анохин рассказал о статусе пилотного проекта, который продолжается 2 месяца и затрагивает анализ клиентской базы банка из 6 млн человек по более чем 80 показателям и 70 категориям. На основании продолжающегося эксперимента ВТБ24 уже смог внести коррективы в свою стратегию и определить портрет своих клиентов в целях дальнейшей маркетинговой разработки продуктового ряда.

Между тем, как отмечают и Кирилл Лядов, и Леонид Белышков, Big Data как ИТ-инструмент в банковской сфере не может работать вне контекста и без веской на то причины. Так, в своем докладе представитель Home Credit Bank привел в качестве примера объемы информации, собирающейся в аналитических системах банка из разных источников (как через внутренние транзакционные каналы, так и извне - от клиентов и офисов), которая должна быть не просто обработана, но подготовлена к извлечению из нее ценной (то есть ведущей к прибыли) составляющей для банковского учреждения. Между тем, для успеха в подобном мероприятии все равно нужны соответствующим образом обученные кадры с необходимыми компетенциями. О схожих проблемах применимости Big Data в проектах рассуждал и его коллега из "Росэнергобанка", отмечая непреложную истину, что для Big Data проектов нужно созреть: ИТ-департаменты банков должны понимать четко не только саму проблему, но и устранять ее причину и следствие. В итоге вполне вероятна ситуация, когда Big Data становятся ненужными или избыточными элементами в ИТ-стратегии, что элиминирует сам экономический эффект.

 Big Data определят ИТ-ландшафт

Вместе с развитием предложения мировых вендоров на рынке Big Data-решений будет обостряться конкуренция на уровне локальных игроков, задействующих подобные технологии в ИТ-проектах. Эта тенденция станет ключевой в разрезе качества аналитики данных на горизонте ближайших 5 лет. Об этом рассказывал в своем выступлении Александр Шмид, председатель правления ЕС-лизинг. Он рассмотрел существующую до сих пор традиционную модель постановки задачи центру принятий решений в компании, который обращается к ИТ-отделу, и проследил ее генезис на основе истории развития вычислений на суперкомпьютерах IBM Watson. Специалист отметил разность подходов к оперированию Big Data обычными вендорами и IBM (стандартно "Запомнил-Обработал" заменяется на "Обработал-Запомнил") и подчеркнул преимущества последнего в деле использования потоковой обработки информации в масштабных аналитических задачах (нет ограниченности от размерности и производительности). Для примера господин Шмид привел возможности IBM BigData с использованием IBM Watson на виртуальном демостенде в ИПИ РАН с удаленным доступом к вычислительным ресурсам и инструментальным средствам.

Отечественных игроков на круглом столе представлял Андрей Состин, директор по развитию бизнеса" ЕТегро Текнолоджис". Его доклад был посвящен новинкам оборудования для серверов на базе решений Intel и AMD, обслуживающих Big Data.

О ценности Big Data в реальных проектах говорил и Вадим Табаков, менеджер по развитию направления Database&Technology SAP. Его речь коснулась преимуществ программно-аппаратной платформы SAP HANA, способной работать в OLTP/OLAP и гибридных средах - специалист рассказал о кейсах применения SAP HANA в Европе (McLaren и Bayer), приведя подробные данные по результатам внедрений. Его коллега - начальник управления ИТ Сургутнефтегаза Ринат Гимранов- рассказал о "живом" внедрении SAP HANA на предприятии, о котором ранее писал CNews.

Собравшиеся на круглом столе специалисты также ознакомились с точкой зрения одного из главных отечественных ИТ-экспертов в области масштабных ИТ-систем Марины Аншиной, председателя комитета по стандартам Российского союза ИТ-директоров. Она рассказала о своем опыте взаимодействия с технологиями и задачами, подпадающими по современное определение Big Data, идущем с середины 1980-х годов, когда под этим понимали использование вычислительной техники на пределе и за пределами ее возможностей. Сейчас, по ее мнению, термин видоизменился и стал многозначным, на что повлияло не в последнюю очередь развитие ИТ-ландшафта. Так, считает госпожа Аншина, в настоящее время источником Big Data являются не только очевидные данные в корпоративных базах данных и массив социального Веба, но и весь поток информации от разнообразных датчиков, измерительных устройств, сенсорных сетей, а также веб-контент за пределами обычных документов и сайтов (журналы посещений, клики, куки). Это все инициирует использование новых инструментов (NoSQL, R, In-memory Data Management, Hadoop), ложащихся в методики обработки с задействованием искусственного интеллекта, статанализа, математической лингвистики, краудсорсинга, предиктивной аналитики и так далее. Специалист, приведя расширенную статистику по Big Data в мире, обратилась к аудитории с призывом использовать большие данные для получения неизвестной, но необходимой для бизнеса информации и рассматривать большие данные как возможности, а не как проблему.

В целом, участники круглого стола CNews выразили интерес к поднимавшимся в выступлениях вопросам применимости Big Data-решений в бизнесе, но отметили, что не собираются вкладывать деньги в подобные решения в большом количестве из-за пока крайне низкого спроса.


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=32690