Курс "Использование инструментов для анализа текста (Bert, Natascha, Gensim)"Код: EDU-Python-24
Продолжительность - 5 дней Производится набор группы
На курсе "Использование инструментов для анализа текста (Bert, Natascha, Gensim)" слушатели познакомятся с основными предобученными сетями для анализа текста, научатся проводить точную настройку сети и классифицировать текст, используя возможности и библиотеки Python. Bert – языковая модель, основанная на архитектуре трансформер, предназначенная для предобучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка. Gensim – это библиотека с открытым исходным кодом на Python, которая используется для тематического моделирования без учителя и обработки естественного языка (NLP). Она предназначена для извлечения семантических тем из документов. Natasha — набор качественных открытых инструментов для обработки естественного русского языка. Прослушав данный курс, Вы узнаете:
Научитесь:
Аудитория: начинающие специалисты в области создания нейронных сетей, применимые в распознавании и анализе текста. Предварительная подготовка: уверенное владение языком Python; знание основных библиотек Python для научных расчетов Numpy, Pandas, Matplotlib; уверенное владение алгоритмами машинного обучения и глубокого обучения. Курсы, рекомендуемые для предварительного прохождения:
Программа курса1 Модель Bert 1.1 Что такое Bert 1.2 Применение Bert к задачам классификации текста 1.3 Готовые предобученные модели Bert 1.4 Представление данных 1.5 Токенизация 1.6 Архитектура модели 1.7 Обучение - метрика качества 1.8 Анализ результата 2 Модель Gensim 2.1 Что такое Gensim 2.2 Создание корпуса из заданного датасета 2.2.1 Предварительная обработка данных 2.2.2 Создание словаря 2.3 Матрицы TFIDF в Gensim 2.4 Создание биграммы и триграммы с помощью Gensim 2.5 Модели Word2Vec, с использованием Gensim 2.6 Модели Doc2Vec, с использованием Gensim 2.7 Создание тематической модели с LDA 2.8 Создание тематической модели с LSI 2.9 Метрики подобия 3 Модель Natascha 3.1 Natascha — большой проект из 9 репозиториев 3.2 Natasha — качественный компактный NER для русского языка 3.3 Библиотека Razdel — сегментация русскоязычного текста на токены и предложения 3.4 Библиотека Slovnet — deep learning моделирование для обработки естественного русского языка 3.5 Navec — компактные эмбеддинги для русского языка 3.6 Nerus — большой синтетический датасет с разметкой морфологии, синтаксиса и именованных сущностей 3.7 Библиотека Corus — коллекция русскоязычных NLP-датасетов 3.8 Naeval — количественное сравнение систем для русскоязычного NLP 3.9 Yargy-парсер — извлечение структурированной информации из текстов на русском языке с помощью грамматик и словарей 3.10 Библиотека Ipymarkup — визуализация разметки именованных сущностей и синтаксических связей В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.
Свободно распространяемое программное обеспечение популярно как среди частных лиц, так и среди организаций. Действительно, СПО позволяет серьезно экономить на приобретении лицензий для компаний, которые многократно тиражируют программное решение. Также благодаря тому, что СПО можно квалифицированно дорабатывать собственными силами под конкретные нужды организации, оно приобретает еще и дополнительную гибкость и удобство в использовании. Открытое программное обеспечение — это программное обеспечение с открытым исходным кодом. Исходный код создаваемых программ открыт, то есть доступен для просмотра и изменения. Это позволяет использовать уже созданный код для создания новых версий программ, для исправления ошибок и, возможно, помочь в доработке открытой программы. В конце обучения на курсах проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненные в процессе обучения. Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
|