Курс "Использование инструментов для анализа текста (Bert, Natascha, Gensim)"

Код: EDU-Python-24
Специализация: Авторские курсы: Свободное ПО/Open Source

Продолжительность - 5 дней

Производится набор группы

Стоимость:  75 000 руб.  

На курсе "Использование инструментов для анализа текста (Bert, Natascha, Gensim)" слушатели познакомятся с основными предобученными сетями для анализа текста, научатся проводить точную настройку сети и классифицировать текст, используя возможности и библиотеки Python.

Bert – языковая модель, основанная на архитектуре трансформер, предназначенная для предобучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка.

Gensim – это библиотека с открытым исходным кодом на Python, которая используется для тематического моделирования без учителя и обработки естественного языка (NLP). Она предназначена для извлечения семантических тем из документов.

Natasha — набор качественных открытых инструментов для обработки естественного русского языка.

Прослушав данный курс, Вы узнаете:

  • Что такое Bert
  • Семейство готовых предобученных моделей Bert
  • Особенности архитектуры модели Bert
  • Что такое Gensim
  • Как создавать тематически модели LDA и LSI
  • Как анализировать метрики подобия
  • Что такое большой проект Natascha
  • Как использовать компактные эмбеддинги для русского языка из Navec
  • Как применить Nerus и Corus
  • Как извлекать структурированную информацию с помощью Yargy-парсера

Научитесь:

  • Применять Bert для задач классификации текста
  • Устанавливать библиотеку Bert
  • Загружать и подготавливать текстовые данные
  • Обучать модели Bert и анализировать результат
  • Создавать корпуса из заданного датасета
  • Создавать биграммы и триграммы с помощью Gensim
  • Использовать модели Word2Vec и Doc2Vec из Gensim
  • Использовать библиотеку Razdel
  • Использовать библиотеку Slovnet
  • Сранивать системы для русскоязычного NLP с помощью Naeval
  • Визуализировать разметку именованных сущностей с помощью Ipymarkup

Аудитория: начинающие специалисты в области создания нейронных сетей, применимые в распознавании и анализе текста.

Предварительная подготовка: уверенное владение языком Python; знание основных библиотек Python для научных расчетов Numpy, Pandas, Matplotlib; уверенное владение алгоритмами машинного обучения и глубокого обучения.

Курсы, рекомендуемые для предварительного прохождения:

  • Программирование на Python, часть 1
  • Программирование на Python, часть 2
  • Программирование на Python, часть 3. Numpy для Data Science
  • Программирование на Python, часть 4. Pandas для Data Science. Высокопроизводительная обработка и анализ данных в Pandas
  • Машинное обучения на Python, часть 1
  • Машинное обучения на Python, часть 2
  • Глубокое обучение (нейронные сети) на Python часть 1
  • Глубокое обучение (нейронные сети) на Python часть 2
  • Глубокое обучение (нейронные сети) на Python часть 3

Программа курса

1 Модель Bert

1.1 Что такое Bert

1.2 Применение Bert к задачам классификации текста

1.3 Готовые предобученные модели Bert

1.4 Представление данных

1.5 Токенизация

1.6 Архитектура модели

1.7 Обучение - метрика качества

1.8 Анализ результата

2 Модель Gensim

2.1 Что такое Gensim

2.2 Создание корпуса из заданного датасета

2.2.1 Предварительная обработка данных

2.2.2 Создание словаря

2.3 Матрицы TFIDF в Gensim

2.4 Создание биграммы и триграммы с помощью Gensim

2.5 Модели Word2Vec, с использованием Gensim

2.6 Модели Doc2Vec, с использованием Gensim

2.7 Создание тематической модели с LDA

2.8 Создание тематической модели с LSI

2.9 Метрики подобия

3 Модель Natascha

3.1 Natascha — большой проект из 9 репозиториев

3.2 Natasha — качественный компактный NER для русского языка

3.3 Библиотека Razdel — сегментация русскоязычного текста на токены и предложения

3.4 Библиотека Slovnet — deep learning моделирование для обработки естественного русского языка

3.5 Navec — компактные эмбеддинги для русского языка

3.6 Nerus — большой синтетический датасет с разметкой морфологии, синтаксиса и именованных сущностей

3.7 Библиотека Corus — коллекция русскоязычных NLP-датасетов

3.8 Naeval — количественное сравнение систем для русскоязычного NLP

3.9 Yargy-парсер — извлечение структурированной информации из текстов на русском языке с помощью грамматик и словарей

3.10 Библиотека Ipymarkup — визуализация разметки именованных сущностей и синтаксических связей

В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.


Свободно распространяемое программное обеспечение популярно как среди частных лиц, так и среди организаций. Действительно, СПО позволяет серьезно экономить на приобретении лицензий для компаний, которые многократно тиражируют программное решение. Также благодаря тому, что СПО можно квалифицированно дорабатывать собственными силами под конкретные нужды организации, оно приобретает еще и дополнительную гибкость и удобство в использовании.

Открытое программное обеспечение — это программное обеспечение с открытым исходным кодом. Исходный код создаваемых программ открыт, то есть доступен для просмотра и изменения. Это позволяет использовать уже созданный код для создания новых версий программ, для исправления ошибок и, возможно, помочь в доработке открытой программы.

В конце обучения на курсах проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненные в процессе обучения.

Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.

  • Нужна помощь в поиске курса?
    Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
  • Поговорите со своим личным тренинг-менеджером!
    Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru

Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/iservices/training.asp?iId=413456