Большие данные для Большой науки

Источник: computerra

Михаил Ваннах

Всеведущий словарь Merriam-Webster определяет big data, Большие Данные как an accumulation of data that is too large and complex for processing by traditional database management tools и относит их первое появление к 1980 году. Но это была, видно, только первая ласточка. А вот головным журавлем кавказских народных сказок был, надо полагать, специальный выпуск журнала Nature от 3 сентября 2008 года, посвященный феномену взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка "от количества к качеству".

Дальше термин зажил своей жизнью в более жирной, а следовательно, и в более питательной - куда там агар-агару или что там нынче кладут в чашки Петри по сравнению с инвестициями в ИТ - среде. Но первое общепризнанное и всеми замеченное применение термина big data относилось именно к научной информации. Что заставляет нас вспомнить еще один связанный с наукой и с нынешним этапом развития технологической цивилизации термин, а именно big science, Большая Наука.

Согласно тому же Merriam-Webster первоприменение термина big science восходит к 1914 году. Но в том году европейская цивилизация нашла себе куда более увлекательное и всеобъемлющее занятие, учинив первую в истории Большую Войну. Наука и хайтек в виде отравляющих газов и радиоуправляемых катеров и аэропланов в той войне отметились - подробнее см. книгу Е.Белаш "Мифы Первой мировой" - но, все же, по настоящему пересеклись с военным делом лишь во Второй Большой Войне, которая для России, похоже, всегда будет просто Войной.

Так что о Большой Науке всерьез заговорили лишь в 1961-м году, когда термин этот употребил директор Ок-Риджской Национальной лаборатории Элвин М. Вайнберг в статье "Impact of Large-Scale Science on the United States". К этому времени радары и сонары, радиовзрыватели и ручные рации уже сыграли свою роль во Второй мировой, а ядерные и термоядерные бомбы и межконтинентальные ракеты обеспечивали сохранность мира Холодной войны, перемежаемого оттепелями. Вайнберг тогда понял, что нахождение США на вершине экономической пирамиды планеты зависит как раз от Большой Науки, и довел это до элиты. Но это так, к слову.

А теперь Большая Наука интернациональна. Слишком уж дороги современные научные приборы. Слишком много денег надо, чтобы заглянуть в дали Вселенной или в сокровенные глубины материи. Нынешним трамвайным магнатам такое не по средствам, да и правительствам отдельных стран тоже (поэтому-то и тщетны иллюзии импортозамещения, обрекающего лишь на стагнацию…). Поэтому-то полноценные научные инструменты - такие, как Большой адронный коллайдер - и создаются международным сотрудничеством. И Россия - к счастью - в сотрудничестве этом принимает полноценное участие.

Ну, говорить про местный завод, выплавлявший кристаллы для детекторов этого самого коллайдера, не хочется. Заказ выполнен, унаследованные от советских времен платиновые тигли проданы, бывшие работницы ездят в соседний город, где трудятся сиделицами в базарных лабазах и ларьках. Поговорим про хорошее, про то, что находится на пересечении Больших Данных и Большой науки, про совместные работы ЦЕРН и Научно-учебной лаборатории методов анализа больших данных ВШЭ, возглавляемой Андреем Устюжаниным.

Сотрудничество это ведется с 2011 года. И направлено оно первоначально было на инструментальную сторону работы с большими данными. Мы сегодня привыкли, что хранение данных ничего не стоит - домашний NAS об 30 терабайтах совсем не кажется слишком большим; а пара полок, забитых винчестерами в коробочках - излишними. Но это - в быту. Где максимум объема - это фильм в формате 4К. А эксперименты в высокоэнергетической физике элементарных частиц порождают действительно Большие Данные, удовлетворяющие всем трем V…

Научные данные можно хранить в корзинке и возить на велосипеде…

И данные эти надо обрабатывать. А перед обработкой надо хранить, и хранить бережно. Слишком уж много сил и средств затрачено на их получение. И тут к услугам физиков два варианта - дорогие (да-да - для тех объемов данных, с которыми имеют дело физики, дисковое пространство дорого!) и быстрые диски или дешевые, но медленные ленты. Казалось бы простейшая задачка на оптимизацию. Но для таких объемов она совсем не проста, и требует изощренных систем машинного обучения.

И вот применение этих систем позволяет без уменьшения скорости работы системы сэкономить сорок процентов дискового пространства, что учитывая объемы GRID - сети дата-центров участников экспериментов CERN - дает приличную экономию бюджета. Но это хоть и очень хорошо и очень полезно, но ближе к хозяйственной сторон дела (что вполне по профилю ВШЭ). Но дальше уже начинается самая Большая Наука, переходящая в фантастику. И занимаются ей Научно-учебной лабораторией методов анализа больших данных ВШЭ в сотрудничестве со Школа анализа данных (ШАД) Яндекса.

На площадке онлайн-сервиса Kaggle ими объявлен нынче удивительный конкурс Flavours of Physics: Finding τ → μμμ. Цель его - разработать методы обработки данных, которые позволят обнаружить распад тау-лептона на три мюона. Распада этого никто пока не наблюдал, но теоретики полагают, что он должен иметь место… Автор физику учил до того, что в ММИБе называется химией, про изделия знал только как они крепятся и подключаются, и до какой температуры их греть, прежде чем поджарить батарею першингов с супостатским городком заодно, и поэтому не будет делать вид, что понимает, о чем идет речь.

Но этого и не требуется и от участников конкурса. Им нужны лишь знания программирования и навыки работы с данными. Ну и интерес применить эти данные к решению физических проблем, подогретый (видите, какие разнообразные значения имеет слово "подогреть"…) призами, объявленными на конкурсе. Но это, впрочем, частности. А дело-то похоже идет о внесении изменений в парадигму научного познания, сравнимых с теми, что внесло появление Большой Науки.

Ну, как оно было встарь. Наблюдали за падающими яблоками, бросали ядра и пули с Пизанской башни, считали удары пульса за которые качнется маятник. Строили теории, создавая или привлекая для них математический аппарат. То есть делились на любимых Нобелевским комитетом экспериментаторов, и постылых теоретиков (относительно которых для большего измывательства придумывали "эффект Паули"). А теперь все переменилось. Эксперимент дает столько данных, что сам экспериментатор выделить в них вожделенный эффект не в состоянии. Тонет в информации как лемовский разбойник Диплой.

И на сцену выходит тот, кто способен эти данные найти. Хотя не является ни теоретиком, ни экспериментатором. ("…мы постарались сделать так, чтобы участникам не приходилось разбираться в тонкостях собственно эксперимента" - говорит Андрей Устюжанин.) Тут опять вспоминается сатирическая фантастика, Робет Шекли, Mindswap, "Обмен разумов" в каноническом переводе: "- Что ж, - сказал Вальдец, - а теперь рассмотрим обратный случай. О теории поисков я знаю решительно все. Следовательно, мне нет нужды знать что-либо о Кэти."…

Но это так, шутка. А серьезным является то, что Большая Наука, похоже отныне и впредь не сможет обойтись без Больших Данных. Ну и без формируемых машинным обучением методов работы с ними. И оптимизм внушает то, что в нашей стране ведутся достойные работы в этом направлении.