Яблоко от яблони: как Нью-Йорк решил проблему больших деревьев с помощью Big Data

Источник: computerra

Игорь Емельянов

Несмотря на то, что словосочетание "большие данные" настойчиво пробивается к органам восприятия аудитории через всевозможные каналы, включая утюги и микроволновки, далеко не все понимают что это такое и как это можно применить. Собственно, на первый вопрос принято отвечать, что Big Data как понятие - это методы и инструменты, позволяющие обработать огромные объемы данных разных типов и структуры для получения понятных человеку и применимых результатов. И вот как раз вторая часть определения приоткрывает завесу тайны над тем, зачем вообще нужны большие данные.

Результат обработки больших массивов информации должен быть не только понятен, но и применим! А с этим у нас возникают проблемы. Ведь, положа руку на сердце, кто из нас навскидку назовет хотя бы два-три заметных проекта, построенных на больших данных и нашедших реальное практическое воплощение? Да, в некоторых департаментах глобальных корпораций уже внедрили предупредительный анализ вместо бизнес-аналитики и это стало возможным благодаря Big Data. Но корпоративный мир довольно закрыт по своей природе, а если информация и просачивается наружу, то в виде скупых пресс-релизов, которые читают разве что мои коллеги, но никак не широкая публика. Однако, сегодня я намерен рассказать вам как раз о таком случае, когда большие данныепомогли целому городу, одному из самых известных городов на Земле - Нью-Йорку.

Заодно я открою небольшой секрет для тех, кто читает бумажную версию журнала. Точнее намекну, что в ближайшее время в рамках основного издания мы будем говорить о том как технологии помогают городам стать лучше. Поэтому сегодняшний пример как нельзя кстати. История о том, как в Большом яблоке решили применить большие данные для решения проблемы больших деревьев.

Вероятно, это звучит странно, но у Нью-Йорка есть достаточно серьезные проблемы с большими деревьями - их в городе порядка 2,5 миллионов, рассредоточенных по паркам, скверам улицам. Поддержание их в здоровом состоянии - это не только вопрос денег, но и вопрос безопасности. С 2009 по 2010 год в одном только Central Park вследствие падения ветвей было покалечено или погибло четыре человека. Разумеется, регулярная стрижка деревьев и удаление больных ветвей помогает избежать несчастных случаев. Но как рассчитать какие именно деревья в огромном мегаполисе необходимо стричь и как это коррелирует с предотвращением реальной угрозы?

Для решения этой проблемы City of New York Parks & Recreation создали программу, в которой вели график обрезки крупных деревьев. В частности, программа содержала данные о том в каких кварталах деревья были пострижены и как часто департаменту приходилось высылать бригады для уборки упавших ветвей и деревьев.

Обладая этими данными, NYC Parks обратились в DataKind, организацию, которая объединяет ученных, работающих с данными и некоммерческие или гражданские организации, у которых есть проблемы, связанные с Big Data. У департамента, отвечающего за парки Большого яблока, был один вопрос к ученным: помогает ли обрезка деревьев в текущем году предотвратить несчастные случаи в следующем году?

То есть, аналитики столкнулись с причинным вопросом, а это одна из сложнейших форм аналитики в том случае, если нет возможности провести формальный эксперимент. Как сказал куратор проекта, вице-президент по изучению данных в компании Media6Degrees (m6d), Брайан Далессандро (Brian Dalessandro) задача осложнена тем, что проводить A/B тестирование фактически означает рисковать человеческими жизнями.

Но несколько лет назад команда Далессандро в m6d смогла решить задачу оценки причинного воздействия рекламы за счет аналитики. Поэтому перед группой ученных стояла задача статистического воссоздания реального эксперимента с деревьями, который бы затянулся на год и подверг риску горожан. Но данные, собранные NYC Parks, были созданы для отчетности, а не для аналитики. Они были разноуровневыми с точки зрения степени детализации: например, данные об обрезке деревьев были распределены по городским кварталам, а чистки от ветвей были назначены по конкретным адресам.

"Одной из сложнейших задач этого проекта стало определение фундаментальной единицы анализа, - сказал Далессандро. - как статистик, я разделяю мир на сущности, поэтому мне нужно было определить что будет эквивалентом одного квартала или, например, ряда деревьев. У паркового департамента не было уникального идентификатора для каждого дерева. Поэтому нам пришлось балансировать на грани степени детализации и неопределенного массива данных".

В конце концов, в качестве базовой единицы для аналитики был выбран городской квартал. И тогда команда Брайна Даллессандро включилась в работу, используя мощности компании m6d для построения статистических моделей и расчета. DataKind удалось ответить на городской вопрос и он звучал следующим образом: обрезка деревьев в квартале в текущем году дает 22-процентное уменьшение вероятности несчастных случаев в следующем году.

Но в данном случае, это не единственная задача, которую можно было решить с помощью больших данных. Даже обладая пониманием того, что ежегодная стрижка деревьев по кварталам действительно работает, департамент парков просто не обладает достаточными ресурсами для того, чтобы ежегодно стричь каждый квартал. Поэтому, в дальнейшем DataKind хочет построить для NYC Parks систему, которая позволит создавать интеллектуальный график стрижки деревьев, полагаясь на такие данные как количество деревьев в квартале, ветры и штормы в конкретном районе города, типы деревьев и так далее.

Таким образом, грамотная работа с большими данными помогла мегаполису решить действительно важную проблему. Вероятно, для моих соотечественников этот пример окажется несколько оторванным от действительности, в силу того, что в российских мегаполисах есть множество гораздо более насущных проблем, которые срочно необходимо решать. Но это не говорит о том, что на нашей почве нельзя применять большие данные. Мы можем использовать их для решения транспортных, экологических, миграционных проблем. Главное видеть перед собой работающие примеры взаимодействия некоммерческих структур и частных компаний, которые делают свой город лучше за счет грамотной работы с большими данными.

Ссылки по теме