Государственный сектор: от Больших данных к Большой аналитике

Источник: cnews.ru

Государственный сектор: от Больших данных к Большой аналитике7 мая 2012 г. президент России подписал указ № 601 "Об основных направлениях по совершенствованию системы государственного управления". Помимо основных мер, связанных с повышением качества государственных услуг и информационной прозрачности, там говорится о необходимости публикации уже к середине июля 2013 г. государственных данных в форме открытых данных (OpenData). 

 

Доктрина Открытого правительства , которая поддерживает право граждан на доступ к документам и действиям государства, стала новым актуальным трендом в современной практике госуправления. В мае текущего года президент США Барак Обама подписал закон, требующий от государственных организаций проводить более открытую политику по предоставлению данных. Более того, согласно закону, вся информация должна быть приспособлена к машинной обработке, что очевидно открывает новые возможности для технологичных компаний.

При более детальном анализе нетрудно заметить, что подобные инициативы неразрывно связаны с глобальным трендом развития современной ИТ-индустрии, а именно: основными двигателями бурного роста отрасли и экономики в целом в ближайшие десятилетия будут являться, наряду с мобильными технологиями и облачными вычислениями, и технологии работы с так называемыми Большими данными (Big data). Еще в 2011 г.

Большие данные - это определенный массив данных, объем и разнородность которого выходит за рамки типовых для отрасли возможностей специализированного ПО для сбора, хранения, управления и анализа подобных данных.

McKinsey Global Institute (MGI) опубликовал отчет "Big Data: The Next Frontier for Innovation, Competition and Productivity", где спрогнозировал критическую важность таких технологий и указал на основные проблемные места.

Какие потенциальные выгоды несут в себе Большие данные и как этим может воспользоваться российское государство в лице чиновников для того, чтобы достичь ключевого показателя президентского указа № 601 - 90%-го уровня удовлетворенности граждан РФ качеством предоставления государственных услуг к 2018 г.?

 Большие данные и рост экономики

Для начала, давайте разберемся, каким образом Большие данные могут влиять на рост экономики - какова связь между микропараметром "объем данных компании" и макропараметром "рост экономики" страны. Интуитивно понятно и давно посчитано, что человек может держать в "оперативной памяти" своего мозга и управлять не более, чем 7 разнородными кусками информации - мыслями, зрительными образами, звуком и т.д. Значит, эффективность работы каждого специалиста ограничена, а объем информации, которую нужно пропускать через себя и хранить, растет экспоненциально. С 1986 по 2007 гг. мировой объем хранимой информации (цифровой и аналоговой) вырос с 3 экзабайт до 295 экзабайт, увеличиваясь в среднем по 23% в год.

Компании, которые в 70-80-х годах быстро поняли, что за информационными технологиями - будущее, стали активно их внедрять  - началась эра использования персональных компьютеров. Таким образом они сумели увеличить производительность труда своих сотрудников, и, как результат, повысить эффективность работы и получить существенное конкурентное преимущество. При этом необходимо понимать, что между началом использования ИТ и соответствующим эффектом отдачи всегда есть временная задержка (см. падение доли ИТ в 2000-2006).


Источник: McKinsey Global Institute, 2011

Очевидно, что повышение производительности труда работников ведет к росту эффективности работы компании и влечет за собой увеличение финансовых показателей в целом, что в масштабах страны приводит к неизбежному росту экономики. Таким образом, использование информационных технологий оказывает существенное влияние на эффективность работы на микроуровне предприятия и, соответственно, является одной из составляющих экономического роста на макроуровне. Безусловно, это лишь один показатель, рассмотренный для анализа зависимости микро- и макро-параметров.

Большие данные и государственный сектор

Если мы говорим о государственном секторе, то ни о каких финансовых показателях деятельности речи быть не может. Государство не зарабатывает деньги, а выполняет конкретный набор функций: обеспечивает безопасность, занимается управлением, следит за экономической, культурной и социальной структурой и т.д.  В идеале, роль государства - это повышение качества жизни своих граждан, их удовлетворенности от действий государственных органов. Исходя из того, насколько успешно государство справляется с этой ролью, можно сделать вывод об эффективности выбранной модели госуправления.

Таким образом, оценка роли технологий в государственном секторе сводится именно к оценке эффективности работы государственных структур. А поскольку технологии неразрывно связаны с данными, и их объем и разнородность в ИТ-системах государственных ведомств в полной мере соответствуют определению Больших данных, то целесообразно говорить именно о роли Больших данных в разрезе эффективности госуправления.

Рост производительности труда в США в период 2000-2008 гг. в зависимости от отрасли и потенциала выгоды от использования Больших данных

Источник: McKinsey Global Institute, 2011

Нетрудно заметить, что наряду с финансовым и страховым секторами, государственный сектор имеет наибольший потенциал для улучшения эффективности работы при использовании технологий работы с Большими данными. Кроме того, повышение производительности труда для госсектора имеет принципиальное значение, т.к. на текущий момент этот показатель крайне низок.

Согласно исследованию специалистов из MGI, европейский госсектор может сократить административные расходы на 15-20% (а это, представьте, порядка 150-300 млрд евро) только за счет увеличения открытости данных и использования технологий продвинутой аналитики на Больших данных.

Потенциал выгод от использования Больших данных в государственном секторе Евросоюза: экономия от 150 до 300 млрд евро

Общая база, млрд. Евро Х Целевая выборка, % Х Потенциал сокращения, % = Итого, млрд. евро
Повышение оперативной эффективности Операционные издержки € 4 000   20-25   15-20   120-200
Сокращение ошибок и растрат Платежи € 2 500   1-3   30-40   7-30
Повышение сбора налогов Налоговые сборы € 5 400   5-10   20-10   25-110
                150-300 и более

Источник: McKinsey Global Institute, 2011


Ключевые инструменты

За счет каких технологий предполагается достигать столь впечатляющих результатов? Строго говоря, набор инструментов и технологий для сбора, управления, анализа и визуализации Больших данных относится к нескольким областям: статистическому анализу, компьютерным технологиям, прикладной математике и экономике. Некоторые из них изначально использовались для работы с небольшими данными, а затем были успешно адаптированы к большим объемам; другие выросли из научных задач и развивались компаниями, изначально ориентированными на работу с большими данными (в первую очередь, это интернет-гиганты - Google, Amazon, Yahoo, Facebook и т.д.).

Если кратко, то к ключевым из этих инструментов относятся:

  • Data fusion/Data integration (сбор, очистка, преобразование, хранение данных).
  • Data mining (глубокий анализ данных, включающий кластерный анализ, регрессионный анализ, нейронные сети и пр.).
  • Статистический анализ.
  • Прогнозирование временных рядов, оптимизационные алгоритмы, моделирование и симуляция.
  • Алгоритмы обработки текста (категоризация, сентимент-анализ) и аудио/видео контента.
  • Отчетность/BI (статические отчеты, OLAP, инструментальные панели, интерактивная визуализация).

И технологии:

  • Hadoop - Свободно распространяемый набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.
  • Cloud - Модель обеспечения повсеместного и удобного сетевого доступа по требованию к общему пулу конфигурируемых вычислительных ресурсов.
  • In-memory - Технология вычислений в оперативной памяти..
  • In-database  - Технология переноса вычислений на сторону СУБД.
  • Grid-computing - Форма распределённых вычислений, в которой "виртуальный суперкомпьютер" представлен в виде кластеров, соединённых с помощью сети, слабосвязанных, гетерогенных компьютеров, работающих вместе для выполнения огромного количества заданий.

Очевидно, что список этот открыт, и в дальнейшем он будет постоянно расти вертикально и развиваться горизонтально. Но уже сейчас понятно, что рынок технологий обработки Больших данных имеет огромный потенциал роста, и его лидерами могут стать технологические компании - поставщики комплексных программно-аппаратных решений, с высокой степенью интеграции "железа" и ПО, предназначенного для высокопроизводительной обработки и выполнения глубокого анализа данных.

Российская действительность

Рассмотрев мировые тенденции, посмотрим состояние дел с аналитикой в российском государственном секторе.

Прежде, чем анализировать текущую ситуацию, вспомним, как создавалось информационное общество в Росcии и на Западе. ИТ-экспертами выделяется 4 этапа развития информационных технологий и их проникновения в повседневную жизнь: этап создания суперкомпьютеров, этап персональных компьютеров, период развития интернета и эра мобильных устройств.

По сути, ИТ-отрасль зародилась, в период гонки вооружений между СССР и США, поскольку с конца 50-х годов начал остро ощущаться дефицит вычислительных мощностей. Это и стало причиной первой волны информатизации - эры мэйнфреймов, периода создания первых суперкомпьютеров и мощных информационно-вычислительных центров. Тогда Россия шла нога в ногу с Западом, стремительно развивая новые технологии, осваивая космос и новые горизонты ИТ-ойкумены.

Но на смену первой волне информатизации в начале 70-х пришла вторая - эра персональных компьютеров, и здесь наши пути с Западом существенно разошлись: на Западе ИТ активно "пошли" в массы и коммерческий сектор, а в России, к сожалению, ИТ, создаваемые для повышения обороноспособности страны, легли в стол под грифом "секретно". Как результат - информатизация не смогла стать массовой, а руководители страны не предвидели, что подобные технологии станут главным конкурентным активом XXI  века наряду с основными средствами и человеческим капиталом.

Долгое время молодое поколение воспитывали на концепциях типа "Кибернетика - буржуазная лженаука", и только сравнительно недавно пришлось признать, что работа с информацией становится ключевой предпосылкой успеха в мире настоящем для специалистов всех уровней, всех отраслей экономики и государственного управления. В результате развитие информационных технологий в России отстало от Запада примерно на 12-15 лет, и это отставание мы ощущаем до сих пор. Но сегодня у нас есть неплохой шанс наверстать упущенное.

Бизнес-аналитика в России

Можно заключить, что многие процессы, идущие сегодня в российской ИТ-индустрии, и связанные с ними проблемы, имеют исторические корни и связаны в первую очередь с тем, что процесс глобальной информатизации, растянутый во времени на несколько десятилетий, мы пытаемся ужать в масштабы пятилетки.

Как следствие - весьма безобидный пример понятийной путаницы. В мировой практике давно употребляется термин BI (Business Intelligence). По устоявшейся в России терминологии, BI - это бизнес-аналитика, методы и инструменты хранения данных, построения систем отчетности и наглядного их представлении для анализа специалистами.

BI в старом понимании является лишь одним из секторов бизнес-аналитики в более современном, широком понимании. Помимо отчётности, туда входят инструменты интеграции и очистки данных (ETL), аналитические ("быстрые") хранилища данных и средства Data Mining. 

В современно же мировом ИТ-сообществе под бизнес-аналитикой в самом полном её смысле (Business Analytics или BA, термин был введён IDC в 2007 году в отчёте " Worldwide Business Analytics Software 2007-2011 Forecast Update and 2006 Vendor Shares") понимается следующее. Согласно Википедии, BA - это инструменты, используемые для преобразования, хранения, анализа, моделирования, доставки и трассировки информации в ходе работы над задачами, связанными с принятием решений на основе фактических данных. С помощью этих средств лица, принимающие решения, должны при использовании подходящих технологий получать нужные сведения, причем в нужное время.

По сути, эта "добавка" есть не что иное, как составные элементы продвинутой аналитики - Advanced Analytics (АА). Таким образом, имеет место простое смысловое равенство:

BI + AA = BА

Перспективы развития

Внедрением BI-технологий в российском госсекторе уже давно и весьма успешно занимаются все крупные интеграторы, об этом написано много статей, проведено множество конференций и презентаций. Сегодня с помощью транзакционных систем  накоплены огромные объемы данных, аналитики научились хорошо строить отчеты на их основе.

Широкое применение инструментов продвинутой аналитики для глубокого анализа собранных данных, прогнозирования ситуации и оптимизации дальнейших действий станет следующим этапом развития. Не случайно ситуация на двух рынках - отчетности и углубленной аналитики - совершенно разная. Экспертом в области BI-отчетности считает себя чуть ли не каждый, а вот серьезных игроков в области углубленной аналитики можно перечесть по пальцам. Не случайно ведущие мировые BI-вендоры сегодня активно скупают нишевых игроков этого рынка, а локальные разработчики спешно пытаются создать полноценные промышленные решения. Исключением является только компания SAS, которая с самого начала своего создания вот уже 37 лет занимается только бизнес-аналитикой.

Решение всё большего количества задач в государственном секторе связано с обработкой и анализом Больших данных, и только инструменты бизнес-анализа позволяют получить достоверные, проверенные и зачастую неожиданные результаты. Для анализа Больших данных вендоры разработали технологии сверхпроизводительной аналитики - High Performance Analytics, позволяющие в десятки и сотни раз ускорить процесс получения результата и его точность, а также технологии высокопроизводительной очистки и интерактивной визуализации данных. Собственно говоря, весь набор решений из линейки BI (включая продвинутую аналитику) сейчас активно переводится в парадигму высокопроизводительных вычислений.

Так, компания SAS, недавно представила целую линейку продуктов на платформе High Performance Analytics, включая мобильные решения для визуального анализа данных и комплексные программно-аппаратные системы для высокопроизводительных вычислений.

По сути, в России сегодня одновременно происходит 2 исторически разнесенных в других странах ИТ-процесса: внедрение технологий углубленной аналитики и развитие технологий Больших данных. И воспользовавшись ситуацией, госсектор может на деле, в масштабах страны, показать всю мощь бизнес-анализа для решения важнейших государственных задач.

Что для этого нужно делать? Повышать культуру работы с информацией, растить новые кадры, делать госслужбу привлекательной и почетной. Если говорить конкретнее, то принципиальную важность имеют следующие моменты.

Во-первых, это повышение качества ведомственных данных и их интеграции. Если не будет достоверных данных - невозможно будет извлечь из них достоверное знание.

Во-вторых, это создание на всех уровнях системы ситуационных центров как инструмента повышения культуры работы с информацией. Почему это так важно? Потому, что, вследствие описанных ранее причин, качество работы с информацией в нашей стране крайне низкое. Вспомним, что стало залогом победы большевиков в результате революции 1917 г. Это образование уже взрослых людей. Вся страна села за парту. Стали создаваться многочисленные марксистские кружки, где рабочие, основная ударная сила большевиков, по ночам после работы учились грамоте и повышали уровень образования, с энтузиазмом изучая теорию марксизма. И результат не заставил себя долго ждать. Нам сегодня нужно вспомнить хорошие уроки прошлого.

В-третьих,  это увеличение количества выпускников профильных ВУЗов для сокращения кадрового дефицита. Посмотрим на данные США, которые по показателю "количество аналитиков на 100 человек" имеют схожий с Россией результат. Согласно исследованию MGI, с учетом текущих темпов роста США будут испытывать к 2018 г. дефицит в квалифицированных аналитиках на уровне 140-190 тыс. человек. При этом потребуются еще и менеджеры, которые понимают и умеют работать с Большим данными. По оценкам экспертов, это дополнительно порядка 1,5 млн специалистов. От них, разумеется, не ожидается глубоких знаний математики, поэтому и время обучения таких специалистов будет существенно ниже. Планируя подготовку студентов по современным специальностям, российские ВУЗы должны это учитывать. 


Источник: McKinsey Global Institute, 2011

Подытоживая все сказанное, сформулируем основные выводы.

Государственный сектор обладает колоссальным скрытым потенциалом: даже не очень значительное повышение эффективности работы неизбежно приводит к существенной отдаче в виде сэкономленных миллиардов рублей.

Одной из основных движущих сил потенциального улучшения качества госуправления в ближайшие 5-10 лет может стать использование технологий работы с Большими данными и углубленной аналитики.

Чтобы технологии Больших данных заработали, необходимо выполнить 2 условия: повысить прозрачность данных и внедрить технологии углубленной аналитики. С этой целью достаточно:

  • внедрить технологии повышения качества данных;
  • создать работающую экосистему ситуационных центров.  При этом крайне важно, чтобы на федеральном уровне были детально описаны требования к информационно-аналитической составляющей, к средствам анализа и визуализации информации. Сейчас в значительной степени превалирует описание технической инфраструктуры;
  • сориентировать систему высшего образования на удовлетворение потребности в специалистах по углубленной аналитике.

Первый шаг уже сделан. Указ Президента России №601 от 07.05.2012 обозначил важность повышения информационной прозрачности государства. Теперь дело за его реализацией и дальнейшими практическими шагами.

 


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=36632