Microsoft заявила о революционном прорыве в компьютерном распознавании речи

Источник: Novosti IT

В компании Microsoft заявили о совершении прорыва в области машинного распознавания речи, научив компьютер воспринимать разговор человека так, как это может делать другой человек.

Равенство с человеком

Как сообщила Microsoft в корпоративном блоге, теперь система распознавания речи делает всего 5,9% ошибок по методике WER (Word Error Rate), столько же ошибок делает естественный распознаватель речи - человек. В прошлом месяце этот показатель равнялся 6,3%.

"Мы достигли уровня человека. Это историческое достижение", - заявил главный ученый команды из подразделения Microsoft по работе с искусственным интеллектом (Microsoft Artificial Intelligence and Research ) Сюэдунь Хуань (Xuedong Huang). По признанию исполнительного вице-президента подразделения Гарри Шума (Harry Shum), еще пять лет назад сотрудники Microsoft полагали, что такое невозможно.

Исторический момент наступил после десятилетий исследований в этой сфере, начиная еще с 1970-х годов, работы совместно с Агентством по перспективным оборонным научно-исследовательским разработкам США (DARPA), перед которым была поставлена задача технологических прорывов в сфере национальной безопасности.

Напомним, Microsoft смогла так далеко продвинуться в сфере распознавания благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев.

Говорить и видеть

"Чтобы достичь контрольной точки равенства с человеком, команда использовала ПО Microsoft"s Computational Network Toolkit, собственную систему для глубокого обучения, проекта с открытым исходным колом, распространяемого через Github", - отметили в Microsoft.

Новость совпала с другим достижением компании, достигнутом на этой неделе. Еще одна команда Microsoft, занимающаяся разработкой "компьютерного зрения", заняла первое место в состязании COCO Image Segmentation Challenge, определявшим, насколько точно машина может определять объекты, оказавшиеся в зоне ее видимости. Результаты команды были на 11% лучше, чем у обладателей второго места.

Идеальный собеседник

Теперь исследователям Microsoft предстоит выяснить, как система распознавания речи будет работать в реальных условиях, в местах, где много фонового шума. К примеру, на вечеринке или на трассе. В долгосрочной перспективе специалисты хотят научит искусственный интеллект не транскрибировать слова, а научить понимать их, отвечать на них и предпринимать соответствующие действия.