Оксфордські вчені мають штучний інтелект, який може читати по ваших губах
"Перше речення на рівні моделі читання по губах"
читання для губ це спосіб розуміння мови шляхом інтерпретації руху губ людини. Однак людська мова є дуже складною і тонкою, де один рух губ може відповідати різним фонем, або основні одиниці звуку. Таким чином, практика схильна до помилок, які іноді можуть призвести до гумористичних результатами.
Вчені з Оксфордського університету описали систему штучного інтелекту, яка називається LipNet, який може точно читати по губах. Система використовує глибоке навчання, щоб навчити себе, використовуючи 29000 секундний-мічені довгі відео з титрами.
Попередня система читати по губах на основі слів до слова, де вчили асоціювати фонеми з певним рухом губ. Це досягається точність 79,6 відсотка. LipNet з іншого боку, працює на цілих пропозицій, в той час, досягаючи точності 93,4 відсотка. У порівнянні з читачами губ людини, які набрали точність 52,3 відсотка, LipNet був 1,78 рази більш точним, ніж їх в перекладі одні й ті ж фрази.
Додаткові інструменти для людей з порушеннями слуху
У той час як точність системи вражає, вона все ще не досконалий. Відео, що подаються на нього було ідеальне освітлення і динамік фронтальної камери. Результати можуть варіюватися, якщо зроблено з менш ідеального відео, що призвело до деякого скептицизм з приводу результатів дослідження.
Проте, технологія дійсно показує обіцянку, і вчені шукають додатків для цієї технології. Наприклад, він може бути використаний як інструмент для слабочуючих. Інші технології вирішують цю проблему по-різному, як скориставшись сенсорної заміни.
За словами OpenAI Джека Кларка, отримавши цю роботу в реальному світі буде приймати три основні поліпшення: велика кількість відео людей, які говорять в реальних ситуаціях, отримання штучного інтелекту, щоб мати можливість читати губи з різних кутів, і варіюючи види фраз ІІ може передбачити.
Список літератури: Кварц, Oxford University