Microsoft заявила, что её технология распознавания речи оказалась лучше, чем соответствующие разработки главных конкурентов - Amazon, Apple, Google и IBM, продемонстрировав самый низкий в мире процент ошибочных слов (Word Error Rate, WER).
Согласно её информации, WER, оценивавшийся по общепринятой в индустрии методике NIST 2000 Switchboard, составил всего 6,3% для технологии, которая будет использована для усовершенствования цифрового ассистента Cortana.
До этого мировой рекорд, 6,9%, принадлежал команде Watson компании IBM, которая в прошлом году таким образом скорректировала своё же лучшее прежнее достижение, составлявшее 8%.
Как отмечает Microsoft, 20 лет назад наименьшая доля ошибок при распознавании речи была 43% (IBM, 1995). К 2004 г. IBM смогла снизить WER до 15,2%.
В наши дни, значительные инвестиции в исследования нейросетей с глубоким обучением позволили большинству вовлечённых в гонку речевых технологий гигантов перейти порог в 10% и приблизиться к человеческому уровню восприятия речи, точность которого IBM оценивает примерно в 4%.
Microsoft и IBM (а также Google) представили статьи по вопросам распознавания речи на конференцию Interspeech, которая состоялась в Сан-Франциско (штат Калифорния).