Технологія розпізнавання мови Microsoft офіційно така ж точна, як і люди
"Людина паритет" досягнуто
У дослідженні, опублікованому в минулий понеділок, обставляється як історичне досягнення по Microsoft, докладно нову технологію розпізнавання мови, яка в змозі транскрибувати розмовної мови, а також людей - або принаймні, в кращому випадку як професійних людських Transcriptionists (що краще, ніж у більшості людей).
Технологія набрав частоту помилок слово (WER) на 5,9%, що нижче, ніж 6,3% WER повідомили тільки в минулому місяці. "[I] т найнижча ціна коли-небудь зареєстрована проти стандартної задачі розпізнавання мови Електрощитове промисловості", повідомляє Microsoft. Швидкість такої ж, як (або навіть нижче, ніж) професійної Transcriptionists людини, що транскрибуються і той же розмову.
"Ми досягли людського паритету," говорить Xuedong Хуан, головний вчений мови від Microsoft. Нова технологія використовує моделі нейронних мови, які дозволяють більш ефективно узагальнення, групуючи подібні слова разом.
Досягнення приходить десятиліття після розпізнавання мовних образів була вперше вивчена в 1970-і роки. З DeepMind від Google робить хвилі в мові і розпізнавання образів (і кажучи, як це роблять люди), ця технологія є своєчасним внеском компанії Microsoft в швидко розвивається області штучного інтелекту (ІІ) досліджень і розробок.
Досягнення було відімкнути за допомогою набору інструментальних засобів обчислювальної мережі, доморощені системи від Microsoft для глибокого вивчення.
Наступний крок: Розуміння
Заявки на нові технології зобов'язані поліпшити користувальницький досвід для персонального голосового помічника від Microsoft для Windows, і Xbox One. "Це зробить Кортан більш потужним, що робить по-справжньому розумним помічником можливо," говорить збуджений Гаррі Шам, виконавчий віце-президент, який очолює групу Microsoft штучного інтелекту і досліджень. Звичайно, він буде також розробити більш ефективні транскрипції програмного забезпечення мови в текст.
уточнюються Microsoft, однак, що паритет означає досконалість. Комп'ютер не розпізнає кожне слово ясно, що щось навіть не люди могли б зробити зовсім (і не може Siri або інші існуючі голосові помічники).
Вражає, як вона є, залишається місце для вдосконалення. Наступна мета: зробити комп'ютери розуміють людську розмову. "Наступний рубіж є перехід від визнання до розуміння," говорить Джеффрі Цвейг, мови і Dialog менеджер дослідницької групи.
Список використаної літератури: The Verge - Tech, Microsoft, Cornell University Library