Автоматический почти синхронный голосовой перевод с одного языка на другой стал реальностью: Microsoft Research продемонстрировала перевод с английского на путунхуа с задержкой в несколько секунд, в котором сам вариант на путунхуа звучал в вокальной манере оригинала. Директор Microsoft по разработкам Рик Рашид провёл презентацию технологии в Тяньцзине 25 октября, но известно об этом стало почему-то лишь сейчас.
Г-н Рашид произнёс всего восемь английских фраз в микрофон системы распознавания, перевода и генерации речи. Две тысячи студентов и учёных были явно поражены результатом (мотайте видео до 7:30).
Утверждается, что это результат нововведений на всех стадиях процесса. ПО вроде Dragon Naturally Speaking компании Nuance уже совершило тихую революцию в области распознавания речи. И теперь продукты, основанные на этой технологии, доступны широкой публике в виде приложения Siri для iPhone или голосового интерфейса игрового контроллера Kinect.
Хотя подобные системы часто ошибаются (по словам г-на Рашида, неправильно интерпретируется каждое четвёртое−пятое слово), сегодняшние намного лучше вчерашних. Microsoft применила новую систему машинного обучения на основе искусственных нейронных сетей, которая сокращает непонимание до каждого седьмого−восьмого слова. А это значит, что программа-переводчик Bing Translate выдаст генератору речи более точный текст.
Но самое большое достижение - это, конечно, генерация речи с сохранением модуляций голоса говорящего. Собеседникам будет легче друг друга понять, и тем самым общение станет эффективнее. Г-н Рашид битый час общался с машиной, прежде чем она усвоила все нюансы его разговорной манеры. Надо признать, что новая система оставила технологию Dragon Naturally Speaking далеко позади.
"Ещё несколько лет, - сказал собравшимся г-н Рашид, - и мы сломаем языковые барьеры между народами".