Microsoft создаёт машинный переводчик, сохраняющий голос пользователя

Источник: 3dnews

Исследователи из лабораторий Microsoft создали технологию, которая может изучить то, как звучит чей-либо голос, а затем использовать его при синтезе иностранной или родной речи. Система может применяться в создании более персонализированного ПО для изучения иностранного языка или же при создании специальных устройств для автоматического перевода речи путешественников.

Во время недавней демонстрации в редмондском кампусе Microsoft исследователь компании Фрэнк Сунг (Frank Soong) показал, что его технология может читать на испанском с помощью голоса его босса Рика Рашида (Rick Rashid), который возглавляет исследовательские проекты Microsoft. Во втором примере господин Сунг использовал своё ПО для того, чтобы дать директору по исследованиям и стратегии корпорации Microsoft Крейг Манди (Craig Mundie) возможность заговорить на китайском.

В качестве примера можно ознакомиться с записью голоса Рика Рашида на родном английском языке, а затем - с автоматическими переводами и синтезом его речи на испанском, итальянском и китайском. Голос, как можно убедиться, действительно похож, хотя некоторые интонации и логические паузы в синтезированной речи отсутствуют, из-за чего она приобретает выраженный роботизированный оттенок.

Фрэнк Сунг, разработавший технологию вместе с коллегами из Microsoft Research Asia в Пекине, полагает, что для изобретения можно найти несколько применений. "Для одноязычного путешественника, посещающего чужую страну, мы сможем сделать распознавание речи, последующий перевод и затем звуковой вывод её на другом языке, но с сохранением его собственного голоса", - сказал он.

По мнению исследователя, технология также может быть использована для помощи студентам в изучении иностранного языка. Образцы иностранной речи, произнесённые собственным голосом, могут не только служить неким ободрением, но позволят проще повторять иностранные фразы.

Применяться технология может и в любых других вариантах, предполагающих синтез речи. Система нуждается примерно в часе обучения для разработки модели чтения любого текста голосом отдельного человека. Записанные образцы звуков тщательно изучаются автоматикой, и при синтезе речи на иностранном языке она подстраивается под нужный голос.

В настоящее время этот подход позволяет, по словам создателей, осуществлять преобразование между любыми двумя языками из 26 поддерживаемых. Качество такого преобразования, конечно, может заметно страдать, но в перспективе технология призвана серьёзно упростить общение носителей различных языков.

Сохранение языка человека при синтезе речи на другом языке сделает взаимодействие при помощи автоматических переводчиков более эффективными, полагает Шрикант Нараянан (Shrikanth Narayanan), профессор университета Южной Каролины и руководитель группы исследователей, работающей над системами перевода речи в ситуациях подобных консультациям между доктором и пациентом.

"Слово - лишь часть того, что человек произносит, - отмечает он, добавляя, что для передачи всей информации речью определённого человека системы перевода должны сохранять параметры голоса и много другое. - Сохранение голоса, сохранение интонации очень важны, и это учитывается в проекте".

Его исследовательская группа изучает вопрос того, как такие особенности речи, как ударение, интонация, использование пауз или заиканий влияет на эффективность и воспринимаемое качество автоматического перевода. По мнению Шриканта Нараянана, новый проект Microsoft позволяет значительно улучшить взаимодействие между людьми посредством машинного перевода.