Введение в Data ScienceИсточник: blog
Data Science - как секс в средней школе. Да, вам не показалось: именно так и есть. "Почему?" - спросите Вы. Все просто: говорят о нем все, а занимается только учитель! Не новость: Data Science - это наука о данных. Она включает в себя Наука о данных тесно связана с информатикой, но в то же время не является ее детищем. Информатика занимается обработкой данных, в то время как Data Science включает весь процесс анализа: от поиска нужной информации до построения графиков и отчетов с результатами. Очень большое место в Data Science занимает статистика - именно на этой математической дисциплине базируются основные концепции. Еще одна немаловажная составляющая - визуализация (т.е. как красиво и наглядно подать результаты аналитики). Так что Data Science - не чистая информатика, не чистая статистика и не чистое программирование. Data Science - нечто большее. Если проследить историческую цепочку появления науки о данных, то последовательность будет примерно такой: появились компьютеры, начали собирать информацию с легкодоступных источников -> этого стало мало, поэтому усовершенствовали "железо" -> стали добывать еще больше самой разнообразной информации -> усовершенствовались инструменты сбора и операционные инструменты -> рост объемов информации превратился в лавину, сносящую все на своем пути - даже специалистов по обработке и анализу. В этот момент и появилась необходимость в современных, отвечающих последнему слову техники разработок в сфере анализа. С этого и началось стремительное развитие Data Science. Термин "наука о данных" существует с 1960 года. Но первоначально он использовался в качестве замены термина "информатика". Примерно через 15 лет этот термин использовался для определения методов обработки данных, используемых в различных приложениях (что ближе всего к тому, что Data Science представляет сейчас). В 2001 году наука о данных была введена в качестве самостоятельной дисциплины. Довольно часто на нашем курсе по Data Science студенты упоминают такой термин, как Data Mining и ставят его в один ряд с наукой данных. Это не совсем правильно. Дело в том, что Data Mining (или интеллектуальный анализ) является подмножеством Data Science и включает в себя анализ больших объемов данных (Big Data) с целью выявления закономерностей и извлечения полезной и релевантной информации. Простой пример: большая компания - это Data Science, отдел обеспечения - Data Mining, а сырье - это Big Data. Отдел обеспечения очень хорошо выполняет свою работу: заключает договора на поставку, связывается с поставщиками. Его задача - обеспечить предприятие всем необходимым сырьем, чтобы процесс производства не останавливался. При этом отдел обеспечения сам выбирает, у кого заказывать, на какие условия соглашаться и так далее. Но и другие отделы компании также могут закупать необходимые им товары. Они отвечают за изготовление продукта, упаковку, логистику, маркетинг и так далее. Все они самостоятельны, но трудятся на благо одного предприятия. В свою очередь, Data Science состоит из других "отделов" - инструментов для сбора, обработки и получения информации, извлечения значимых данных и интерпретации их для принятия формально аргументированных решений: это Data Mining, статистика, машинное обучение, аналитика и программирование. Статистические показатели или прогнозная аналитика используют накопленные данные для оценки событий, которые могут произойти в будущем. Машинное обучение - это инструмент, который предназначен для интеллектуальной обработки больших объемов информации, что не под силу человеку. Алгоритмы машинного обучения - это огромный шаг вперед в мире IT-технологий. Они способны учиться на своих ошибках (и делают они это явно лучше, чем мы с вами). После каждого применения алгоритма, машина совершенствует модель принятия решений. Другими словами, она корректирует начальное состояние, заложенное в нее специалистом, для того, чтобы в следующий раз подобной ошибки не возникало. На первом этапе создания алгоритма корректировка происходит с помощью эксперта - человека. Он указывает машине, где она допустила ошибку. Это процесс называет процессом обучения на пробной выборке. Затем машина уже сама выстраивает модели и шаблоны, и по ним определяет: правильно сделан выбор или нет. Это чрезвычайно сложная технология, но эффективная и удобная. Той точности и тех объемов обработанных данных человек никогда не сможет достичь. Алгоритмы машинного обучения после обработки неструктурированных данных выдают в качестве результата уже структурированные. После этого, упорядоченная по какому-то признаку информация переходит в "лапы" специалиста, который подвергает ее глубокому и многогранному анализу. Аналитик интерпретирует, преобразует и агрегирует данные в единый язык, понятный команде, принимающей решения. Короче говоря, Data Science - всемогущая наука, способная предсказывать будущее, объяснять настоящее, искать закономерности в прошлом. Если в лохматых годах за советом в принятии важного решения шли к шаманам, магам и экстрасенсам, от сейчас обращаются за помощью к Data Scientists`ам. Специалист по данным. Кто он? С Data Science мы уже знакомы. Пускай на "вы", но начало положено. И главный вопрос, который должен был возникнуть: "Кто всем этим занимается?". Наука есть, основные задачи и принципы тоже, есть методы и алгоритмы, программы и приложения. А кто их создает и совершенствует? Если Data Science - всемогущая наука, то Data Scientist - всемогущий ученый. Он разбирается во всех областях, которые включает в себя наука о данных (это Data Mining, статистика, машинное обучение, аналитика и программирование). Звучит весьма серьезно и сложно, неправда ли? Термин "специалист по обработке данных" появился в 2008 году, когда компании осознали необходимость в специалистах, которые умеют организовывать и анализировать огромные объемы данных. Специалист по данным собирает, анализирует и интерпретирует большие объемы данных. Конечно, не просто ради веселья или из-за того, что заняться нечем. На его плечах лежит очень ответственная миссия - улучшение работы компании и ее процветание. Data Scientist - это посредник между терабайтами данных и лицами, управляющими фирмой. Он, своего рода, переводчик с языка чисел, текстов, дат и других типов на язык наш, человеческий. Эффективные исследователи данных могут выявлять закономерности, отвечать на некоторые совсем не очевидные вопросы, собирать данные из множества различных источников, систематизировать информацию, преобразовывать результаты в решения и передавать свои выводы таким образом, чтобы это положительно сказывалось на деловых решениях. Эти навыки требуются практически во всех отраслях, поэтому квалифицированные специалисты в области данных становятся все более ценными для компаний. Например, банковские учреждения извлекают выгоду из больших данных, чтобы увеличить вероятность выявления мошенничества. Фирмы по управлению активами используют большие данные, чтобы предсказать вероятность того, как будет меняться цена ценных бумаг. Такие компании, как Netflix, собирают большие данные, чтобы определить, какие продукты предоставлять своим пользователям. Многие компании используют алгоритмы для создания персонализированных рекомендаций для пользователей на основе их истории просмотров и покупок. В настоящее время специальность Data Scientist бьет рекорды по востребованности на рынке труда. Помимо этого, работодатели готовы хорошо платить за принесенную компании выгоду от их решений. Как в 2000-ых было модно работать журналистом или юристом, так сейчас роль исследователя данных описывается как "самая сексуальная работа 21-го века". Не случайно мы сказали фразу "модно работать". И правда: профессия Data Scientist хорошо оплачивается, востребована… так пойду поработаю! Но мало кто задумывается, что нужно не просто работать, а знать, как это делать; знать, как ведут себя данные; как применять те или иные методы; как сделать выводы и как их преподнести; как запрограммировать алгоритм; как его придумать и еще много чего "как". Специалистам по данным требуются знания математики или статистики. Естественное любопытство также важно, как и творческое, и критическое мышление. Исследователи данных должны быть ориентированными на результат, с исключительными отраслевыми знаниями и коммуникационными навыками, которые позволяли бы им объяснять свои технические результаты своим коллегам. Хорошие Data Scientists обладают крепкими знаниями в области программирования, уделяя особое внимание хранилищам данных, интеллектуальному анализу и моделированию для построения и анализа алгоритмов. Они также должны уметь пользоваться ключевыми техническими инструментами, в том числе:
Требования к аналитикам, конечно, большие, но оно стоит того. Согласно исследованию, проведенному IBM, в 2020 году число рабочих мест для Data Scientists увеличится до 2 720 000 человек. Ну вы понимаете, что это значит! Заключение Вот и подошла к концу наша мимолетная встреча с наукой о данных и требованиями к специалистам в этой области. Если вы прочитали эту статью и не испугались, а только загорелись желанием попробовать себя в этом, то это отличный повод углубиться в область Data Science! Следите за нашими статьями, смотрите обучающие видео, записывайтесь на курс, общайтесь с представителями отрасли во время онлайн-вебинаров! |