(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Источник: habrahabr

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале - выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Flickr / Jer Thorp / CC

Data Scientist: аналитик, математик, программист

Профессия Data scientist - относительно новая, причем не только для России, но и для всего мира. Само собой, не все задачи из сферы профессиональных интересов современного специалиста по работе с данными появились в последние годы - какие-то из них ранее решали программисты, специалисты по статистике, бизнес-аналитики.

Более того, вопрос о том, что именно должен знать и уметь Data scientist остается открытым: например, на сайте Американской статистической ассоциации еще недавно велись дебаты о том, принесет ли появление "науки о данных" смерть статистике (и насколько тесно связаны эти дисциплины) и что общего у тех, кто работает на позициях Business scientist, Data scientist, Data analyst и Statistician.

Безусловно, большое количество различных терминов и названий должностей порождает определенную путаницу. Например, Винсент Грэнвилл (Vincent Granville), предприниматель и исследователь, развивавший аналитическое направление в Visa, Microsoft, eBay и NBC, выделяет целых 16 различных дисциплин и профессий, так или иначе пересекающихся с тематикой Data science - от таких направлений как искусственный интеллект и предсказательное моделирование до профессий вроде актуариев (в страховании) и квантов (в высокочастотном трейдинге). С одной стороны, такое многообразие может запутать новичка, с другой - это явный признак, что без работы будущий специалист в Data science точно не останется.

Вне зависимости от того, как будет называться та или иная должность, от специалиста по работе с данными ожидается, что он будет обладать знаниями сразу в нескольких дисциплинах. Среди наиболее важных Андрей Созыкин, выступая на лекции в Университете ИТМО, отметил:

  • Знание математики, прикладной статистики и теории вероятностей
  • Умение программировать (в частности на Python) и работать с библиотеками для анализа данных
  • Понимание актуальных методов машинного обучения (к которым относится не только глубокое обучение)

Для того, чтобы "влиться" в эту сферу, Андрей Созыкин рекомендует, в частности, следующие курсы:

  • Machine Learning (Coursera, курс от Эндрю Ына)
  • Neural Networks for Machine Learning (Coursera, курс от Джефри Хинтона)
  • Data Analyst (Udacity, курс подготовлен совместно с Facebook)
  • Machine Learning Engineer (Udacity, курс подготовлен совместно с Kaggle)

Освоить теорию, по словам Андрея Созыкина, можно примерно за год - в особенности, если вы уже обучаетесь на специальности с уклоном в статистику или IT. Медицинский или естественнонаучный бекграунд, опыт работы в банковском секторе или страховании, тоже могут быть как нельзя кстати.

Андрей подчеркивает, что будущему специалисту важно обладать не только фундаментальными, инженерными знаниями, но и разбираться в предметной области, в которой будет идти работа. В конце концов, одна из проблем, с которой сейчас сталкиваются крупные компании, работающие с Большими данными, - невозможность эффективного применить на практике полученные результаты исследований.

Разумеется, человек с таким набором знаний - большая редкость. Поэтому и Data science, как правило, - дисциплина не одиночная, а "командная":

Это принципиально мультидисциплинарное направление. […] допустим, кто-то отлично программирует, кто-то на очень высоком уровне знает математику, а кто-то разбирается в тех же банках, а все вместе они выдают результат

- Андрей Созыкин

"Аналитический урбанизм"


Необычный пример такого мультидисциплинарного подхода - работа специалиста по Большим данным и Data science Клаудио Сильвы, профессора Политехнического института и Центра городских исследований и прогресса Нью-Йоркского университета. В 2015 году он впервые посетил Университет ИТМО и дал интервью о том, как Data science может быть связана с урбанистикой.

Клаудио воспринимает информацию, которая генерируется в городах, как "безотходное производство": Большие данные, создающиеся в процессе работы многочисленных городских служб и предприятий, могут послужить городу во благо. Например, специалисты по работе с данными в Нью-Йорке разработали продукт, позволяющий инженерам городских путей эффективно использовать информацию о передвижении нью-йоркских такси.

Нам важно, чтобы все решения, принимаемые городскими управленцами, инженерами, архитекторами, следовали логике данных, чтобы они не были спонтанными или плохо взвешенными. У нас есть возможность более широко смотреть на то, как должен развиваться город, и нужно пользоваться ею

- Клаудио Сильва

По словам Андрея Созыкина, основные направления для развития сферы Data science - разработка аппаратного обеспечения для ускорения обучения, создание более сложных и точных алгоритмов обучения и построения сетей. Не менее важная задача - научиться лучше понимать, как "думает" сеть - от этого зависит то, насколько широко будут применяться разработки специалистов по Data science в сферах, непосредственно связанных с жизнью человека:

Для нас она [сеть] работает в так называемом режиме black box - "черного ящика". Мы не понимаем, что у нее происходит внутри и почему она предлагает именно такие варианты. В медицине это неприемлемо, ведь в этой области мы должны четко объяснить и аргументировать каждое действие

-Андрей Созыкин

Отметим, что в Университете ИТМО работой в направлении Data science занимается, в частности, Институт наукоемких компьютерных технологий (НИИ НКТ). О том, как сотрудники Института создают модели развития событий в местах массового скопления людей, анализируют настроение толпы и оценивают общественное мнение по данным социальных сетей

Интернет-магазин


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 24.05.2017 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Panda Global Protection - ESD версия - на 1 устройство - (лицензия на 1 год)
IBM Domino Messaging Server Processor Value Unit (PVU) License + SW Subscription & Support 12 Months
Oracle Database Personal Edition Named User Plus License
TeeBI for RAD Studio Suite with source code single license
Quest Software. TOAD Xpert Edition
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
СУБД Oracle "с нуля"
Новые материалы
Краткие описания программ и ссылки на них
Новости мира 3D-ускорителей
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100