7 шагов: Как стать специалистом по Data Science в финансах

Источник: blog

Data Science - наука молодая, но очень амбициозная и перспективная. Научившись эффективно обрабатывать данные, она вывела на новый уровень все сферы человеческой деятельности.

Грамотный data scientist может принести компании огромную прибыль, поэтому он необычайно востребован на рынке труда.

Активный спрос и   острый дефицит кадров   определили привлекательный уровень зарплат. Получается, что быть аналитиком данных очень выгодно!

Особенно большая потребность в этих специалистах наблюдается в data-зависимых отраслях, например, в финансах. Если вы чувствуете, что анализ финансовой информации - это ваше призвание, смело ступайте на тернистый путь Data Science!

Эта статья по шагам проведет вас в мир Data Science, больших данных и умных машин.

Шаг 1. Найдите в себе силы

Наука о данных в настоящее время молода, полна энергии и безгранична. В ней сочетаются фундаментальные научные подходы и современные технологии. Хороший специалист должен во всем этом разбираться, так что учиться будет трудно. Чтобы пройти этот путь, вы должны по-настоящему любить данные и работу с ними.

Успешный data scientist - это человек с особым образом мышления. Он любит решать сложные задачи - а других в этой области и не бывает - и не останавливается перед трудностями. По большому счету, именно эти качества отличают хороших специалистов от посредственных.

А еще вам придется много общаться с коллегами и руководителями. Сначала нужно будет понять задачу, затем разобраться, как ее решить, и наконец лучшим образом представить результаты.

Если вы к этому готовы, замечательно! Делайте следующий шаг.

Шаг 2. Разберитесь в концепциях

Насколько велики "большие" данные (big data), как и зачем их майнить (data mining), при чем здесь нейронные сети (neural network), и чему именно учатся машины (machine learning)?

Data Science полна непонятных терминов, в которых вам придется разобраться. Составьте общее представление с помощью книг и видео-уроков для начинающих.

Очень важно понимать, какие основные этапы обработки должны пройти данные, чтобы их можно было использовать:

  • Сбор, очистка и предварительная подготовка;
  • Статистический анализ;
  • Обнаружение закономерностей, прогнозирование;
  • Визуализация.

Шаг 3. Постройте фундамент

Анализ данных совершенно немыслим без отличных математических и статистических навыков. Даже великолепное владение инструментами не спасет, если вы не понимаете самой сути аналитики.

Для работы вам точно потребуются знания в области статистического анализа, линейной алгебры, теории вероятностей, многомерного исчисления.

Начать вы можете с этих материалов:

  • Матричный анализ и линейная алгебра, Е. Е. Тыртышников;
  • Курс линейной алгебры, Coursera;
  • Теория вероятностей, Н. И. Чернова;
  • Теория вероятностей для начинающих, Coursera;
  • Математическая статистика, Н. И. Чернова;
  • Курс по основам статистики, Stepik.

И конечно, вы должны отлично разбираться в вашей предметной области - финансах. Нельзя решить задачу, которую не понимаешь. Уделите время изучению основных финансовых статистических моделей.

Также будет полезно углубиться в анализ временных рядов, так как большинство данных в этой сфере представлено именно в таком виде!

Шаг 4. Научитесь пользоваться инструментами

Data scientist работает с огромным количеством данных. Большая часть из них не имеет четкой структуры и нуждается в обработке. Многие задачи требуют быстрого решения, иногда даже моментального. Все это обуславливает необходимость использования компьютеров для анализа.

Для успешной работы вам нужно овладеть рядом инструментов, которые помогают:

  • Собирать данные из разных источников;
  • Извлекать из них полезную информацию;
  • Структурировать ее;
  • Проводить статистический анализ;
  • Находить закономерности и связи;
  • Визуализировать результаты.

Ниже перечислены основные полезные навыки для каждого этапа:

1. Извлечение и предварительная обработка

Базы данных

Большая часть необходимой для работы информации хранится в SQL-хранилищах. Чтобы извлечь ее оттуда, нужно владеть языком запросов к базе.

Важно также понимать основы реляционной алгебры, чтобы уже на этом этапе придать данным определенную структуру.

Технологии Big Data

Для работы с большими данными используется Hadoop, позволяющий распределять вычисления на сотни узлов. Полезно будет ознакомиться с Hadoop-экосистемой, моделью MapReduce и сопутствующими технологиями вроде Apache Spark и Apache Flink.

Эти инструменты особенно важны, так как в финансовой сфере работа ведется со многими потоками данных!

UNIX

Иногда с неструктурированными данными удобнее всего работать через UNIX-консоль без зависимости от базы. Поэтому специалисту полезно знать некоторые команды.

Python

Самый популярный язык программирования для Data Science - это дружелюбный Python. На самом деле, он может использоваться на всех этапах обработки данных, так как имеет великолепные средства анализа и инструменты визуализации!

Для эффективной работы вам потребуются базовые знания языка, а также его библиотеки, в которых уже реализована большая часть необходимых алгоритмов, например, pandas.

Другие технологии

Если вы решите сосредоточиться на первом этапе обработки данных, обратите внимание на такие прогрессивные направления, как распознавание объектов и обработка естественного языка.

2. Анализ

Python/SAS/R

Язык программирования R - основной конкурент Python в области анализа данных. Он больше популярен в науке. Библиотеки обоих языков имеют богатейший набор методов для обработки данных.

SAS - еще одна альтернатива. Он чаще всего применяется в задачах прогнозирования. Если не знаете, какой язык выбрать, взгляните сюда.

Машинное обучение

Пожалуй, самая интересная часть работы data-аналитика - это построение моделей машинного обучения, которые способны автоматически обрабатывать, сопоставлять данные и прогнозировать будущие события.

Чтобы стать профи в этом деле, разберитесь с python-библиотекой scikit-learn. Она имеет понятный интерфейс и позволяет тонко настраивать модели.

Для прогнозирования применяются алгоритмы нейронных сетей.

3. Представление результатов

Нельзя недооценивать этап визуализации данных.

Важная задача аналитика - донести результаты своей работы до тех, кто будет непосредственно воплощать их в жизнь. Это значит, что представление должно быть максимально ясным и четким, исключающим всякую двусмысленность.

Для визуализации создано множество удобных инструментов, с которыми вам следует познакомиться, например:

  • D3.js;
  • Flare;
  • Tableau

Владение этими инструментами даст вам преимущество при устройстве на работу. Также широко применяется старый добрый Excel.

Шаг 4. Практикуйтесь!

Изучив основы, немедленно принимайтесь за практическую работу.

Работодатели не станут подпускать к своим ценным данным человека, не имеющего реального опыта.

Вы можете самостоятельно придумывать себе задачи, пользуясь готовыми наборами данных, или отправиться на Kaggle и принять участие в соревновании!

Отличные датасеты можно найти здесь и здесь.

Выкладывайте свои решения на github, обсуждайте их на форумах, улучшайте. Все время усложняйте задачи: берите больше данных, делайте лучше, быстрее, эффективнее!

Великолепной возможностью для развития являются стажировки в компаниях, на которых вы можете поработать с реальными задачами.

Шаг 5. Определитесь со сферой интересов

Теперь, после первого погружения в Data Science, окиньте взглядом всю эту сферу и определитесь, что вам действительно интересно.

Возможно, ваше призвание - машинное обучение и алгоритмическая торговля, или вы виртуозно отбираете ценную информацию из грязных данных. А может быть, ваша дорога ведет в business intelligence и анализу финансовых отчетов!

Это непростой выбор, и вам, возможно, придется сделать несколько попыток. А для начала просто ознакомьтесь с базовыми ролями Data Science и ее основными применениями в финансах.

Наука о данных по ролям

Есть две основополагающие технологии работы с данными:

  • ETL (Extract/Transform/Load). Это технические специалисты: инженеры и архитекторы данных, администраторы баз данных. Сфера их ответственности - хранение, извлечение и преобразование информации. Они имеют дело прежде всего с формой.
  • DAD (Discover/Access/Distill). А это аналитики, для которых важнее содержание. Они ищут и обрабатывают данные разнообразными способами, выявляют взаимосвязи и делают прогнозы.

В отдельную группу можно выделить бизнес-аналитиков. Они в работе больше полагаются на абсолютно точную информацию прошлого: отчеты, ключевые показатели эффективности (KPI). Их задача - ретроспективный анализ исторических данных и бизнес-тенденций.

Наука о данных в финансах в некоторых отраслях:

  • Кредитование - определение платежеспособности заемщика (lending);
  • Анализ финансовых рисков (risk management);
  • Прогнозирование движения рынка (investing);
  • Алгоритмическая торговля (trading);
  • Обнаружение мошеннических операций (fraud).

 

Шаг 6. Получите сертификат

Вы почти достигли своей цели: осталось лишь подтвердить ваши умения официальным сертификатом, который можно будет предъявить работодателю. На самом деле, сертификат нужен, скорее, для успешного прохождения скрининга.

Существует множество курсов и программ аккредитации. Главное, подобрать подходящую именно вам.

Рекомендуем вам наш курс по Data Sience, где вы сможете получить все необходимые знания и навыки.

Будьте аккуратны, это очень модная сфера, здесь много шумихи и некачественных курсов!

Шаг 7. Найдите работу! Реально, найдите работу!

Вы уже здесь? Замечательно!

  • Для примера посмотрите, как проводят реальные собеседования.
  • Проверьте свои знания.
  • Вспомните, какой путь вы уже прошли.

Путь к профессии data scientist действительно долгий и трудный, но в то же время невероятно интересный, если вы имеете склонность к анализу. В этой области, вероятно, никогда не закончатся сложные задачи, решение которых требует творческого подхода.

Хотите узнать больше? Рекомендуем пройти наш бесплатный курс и Написать свой первый код на Python. На курсе вы научитесь выполнять простейшие операции и познакомитесь с обработкой данных.

Успехов в начинаниях!


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=40214