Как развитие ChatGPT повлияет на рынок голосовых ассистентов

Источник: vedomosti

Технология виртуальных голосовых помощников развивается уже более 10 лет, и благодаря набору инструментов разработки, которые можно найти в открытых библиотеках кода, порог входа в этот сегмент IT-рынка для стартапов и компаний довольно низкий. Впрочем, развитие искусственного интеллекта, в частности появление моделей ChatGPT, может дать дополнительный толчок развитию голосовых ассистентов.

Вокруг отставки гендиректора компании - разработчика ChatGPT, OpenAI, Сэма Альтмана бушует торнадо из новостей, но искусственный интеллект (ИИ) продолжает развиваться своим чередом. Появление GPT-помощников на основе LLM-моделей дало мощный толчок развитию уже привычных голосовых помощников, обеспечивая более разумное и естественное взаимодействие: если раньше помощники могли вести диалог по определенным сценариям, прописанным разработчиком, то теперь боты на основе GPT и ее вариаций могут поддерживать диалог на любую тему.

Благодаря внедрению генеративных нейросетей с миллиардами параметров голосовые помощники становятся более персонализированными, они запоминают контекст беседы и моментально подстраиваются под пользователя. Еще пару лет назад этот навык был недоступен даже самым совершенным голосовым помощникам: они умели лишь предоставить информацию по запросу или отвечать заранее записанными репликами, произнося их с очень неестественными интонациями.

Шаблонность ответов отталкивала пользователей: по статистике компании - разработчика Just AI, четыре из пяти клиентов компаний, которые внедряли такую технологию, прекращали общение с ботом, если его ответы не отвечали их персональным потребностям. Впрочем, теперь у голосовых помощников появился шанс стать ближе к людям.

Кажется, Алису из "Яндекса" или Марусю из VK мы знаем довольно давно: одной уже шесть лет, другой - четыре. В блоге разработчиков Алисы на Habr опубликована подробная история о том, как голосового помощника учили говорить: сначала с помощью одного алгоритма генерировали речь, потом с помощью другого искали схожие фонемы и фрагменты в сгенерированной и записанной живой человеческой речи, после чего пересобирали сгенерированную речь из естественных фрагментов, чтобы реплики Алисы были похожи на то, как говорим мы с вами. На момент старта разработки голосового помощника в 2016 г. "Яндекс" уже реализовал голосовое управление в "Поиске", "Навигаторе" и других приложениях, что позволило компании собрать огромные массивы данных и обучать на них нейросеть.

Но, как и любые дети, Алиса постоянно развивается. Летом 2019 г. помощник научился правильно ставить ударения в парах омонимов, например правильно произносить в зависимости от контекста слова "зАмок" и "замОк", "белкИ" и "бЕлки" и т. д. В 2021 г. разработчики научили Алису говорить шепотом.

Все семейства голосовых помощников развиваются по схожему принципу: Маруся, Siri, сберовские Салют, Афина и Джой и другие имеют в своей основе алгоритмы, ежегодно обучаемые на колоссальных массивах данных, для того чтобы лучше понимать запросы и выдавать на них более релевантные по смыслу и более естественные и разнообразные по эмоциям ответы.

Голосовые помощники и ассистенты становятся все больше похожими на реального человека, рассуждает директор одного из подразделений компании "Рексофт консалтинг" Кирилл Малышев. Зачастую компании берут уже готовые модели, среди которых также есть и визуальные, чтобы дообучать их и использовать в собственных голосовых помощниках, подтверждает руководитель направления аналитики IT-компании SimbirSoft Константин Шакуров. "Поэтому можно сказать, что порог входа в такую разработку не так высок, как кажется", - констатирует он.

Изначально голосовые технологии развивались отдельно от GPT-моделей, объясняет генеральный директор "Наносемантики" Станислав Ашманов. Технологии для синтезирования речи АСР/ТТС (Automatic Speech Recognition / Text To Speech) существовали уже десятилетие до появления генеративных диалоговых нейросетей, добавляет он.

До появления GPT-моделей голосовые помощники работали на базе более простых алгоритмов и технологий обработки естественного языка (NLP, Natural Language Processing), отмечает директор по AI-продуктам Just AI Алексей Борщов.

В 2017 г. группой ученых из Google Brain была опубликована научная работа под названием Attention is all you need ("Внимание - это все, что вам нужно". - "Ведомости. Инновации и технологии"), где была представлена модель новой архитектуры трансформера, которая и стала основой ChatGPT, объясняет сооснователь компании Parodist AI Владимир Свешников.

В конце 2022 г. с выходом ChatGPT 3.5-4 произошел научный прорыв. "Эта модель позволила строить довольно большие, длительные диалоги. Она довольно хорошо поддерживает разговор, может сочинять стихи, писать код и многое другое, - рассуждает Свешников. - Еще пять лет назад представить такое было довольно сложно, потому что еще 5-7 лет назад задачи решались на уровне сентиментного анализа (область компьютерной лингвистики. - "Ведомости. Инновации и технологии") и позволяли понять, позитивный или негативный отзыв покупатель оставил на маркетплейсе. Сейчас такие задачи решаются без какого-либо обучения алгоритмов. Трансформеры прекрасно справляются с этими задачами".

Технологический прогресс происходит постоянно и один из побочных эффектов состоит в том, что доступ к ИИ-технологиям упрощается, снижается объем требуемых усилий и средств, необходимых, чтобы добиться качественного результата, говорит Ашманов. "Например, еще три года назад чат-боты не могли поддерживать полноценный диалог с сохранением его сути и истории взаимодействия. Разнообразие речи достигалось прописыванием десятков тысяч реплик, веток и сценариев диалога. Сейчас после небольшого дообучения больших языковых моделей боты могут вести осмысленную беседу и большинство собеседников не отличат бота от живого человека в процессе общения. Чтобы воссоздать речь человека, сегодня достаточно пятиминутной записи голоса, а по 10-минутной видеозаписи можно сделать 3D-модель, имитирующую полноценную личность", - рассказывает эксперт.

Связка ChatGPT и голосовых помощников очень перспективна и позволяет вызывать чувство осмысленности в диалоге человека и голосового помощника, продолжает Ашманов. Кроме того, на уровень доверия также влияет то, насколько реалистично бот звучит. "Например, для нашего проекта цифрового ученика Владимира Жириновского мы добавили покашливание, смысловые паузы, возможность проявить иронию и смеяться, чтобы сделать его еще больше похожим на реального человека", - приводит пример Ашманов.

То есть генеративно-состязательные сети (алгоритм, собранный из двух нейронных сетей, одна из которых генерирует образцы, а другая учится правильно распознавать) и большие языковые модели (LLM, Large Language Model - алгоритмы, предназначенные для обработки языка в больших масштабах) позволили сделать искусственный интеллект таким естественным.

"Развитие технологии в направлении визуализации ИИ объясняется тем, что людям проще взаимодействовать с антропоморфными объектами. А когда в основе продукта лежит LLM, то возможности коммуникации с пользователями значительно расширяются. Чат-бот или следующая его ступень - цифровой аватар - может не только правильно распознавать запросы, но и отвечать на нескольких языках в зависимости от потребности", - отмечает он.

По оценкам iKS-Consulting, по итогам 2022 г. российский рынок голосовых помощников составил 3,9 млрд руб. Рынок входит в стадию зрелости, его ежегодный прогнозируемый прирост составляет 30-35%, говорил "Ведомостям" в сентябре 2023 г. аналитик iKS-Consulting Александр Прокунин. Для компаний использование голосовых помощников позволяет снизить количество персонала, уменьшить число точек обслуживания и др., отмечает эксперт компании SimbirSoft Галина Яшина. По ее оценке, более 50 крупных компаний по итогам 2022 г. так или иначе занимались разработкой умных ассистентов.

Кадровые перестановки в OpenAI на ChatGPT не скажутся, считает Ашманов: уже можно констатировать, что технологический прорыв в отрасли произошел, поэтому будущее продукта сейчас не так сильно зависит от того, приостановят свой проект OpenAI или решат повести его по другому пути. "Существуют аналоги, может быть в чем-то и уступающие ChatGPT, но которые соберут свою аудиторию", - отмечает он.

В России генеративные нейросети активно развиваются, что дает возможность делать полностью свои решения, которые по уровню работы с русским языком лучше западных, продолжает эксперт. "Мы это проверили самостоятельно, протестировав множество моделей, включая известные Alpaca, LLaMA, Vicuna, Falcon, ruGPT-3,5, LLaMA-2, и далеко не все показали качественные результаты по анализу русского языка", - резюмировал Ашманов.