Головна Новини

Новий алгоритм від Microsoft може клонувати ваш голос із трьох секунд аудіо

Модель перетворення тексту на мовлення може зберігати емоційний тон мовця та акустичне середовище.

Паркування ВАЛЛ-І

Майкрософт каже, що її новий ШІ для перетворення тексту на мову може клонувати ваш голос, тон та все інше з трисекундного фрагмента аудіо. Він називається ВАЛЛ-І, і ми маємо змішані почуття.

Основна технологія, що лежить в основі системи, яку Microsoft називає в новій статті "моделлю мови нейронного кодека", складна, але на практиці використання системи видається надзвичайно простим. Вставте зразок аудіо, потім трохи тексту і вуаля: реальна мова.

Звичайно, вже існує безліч додатків для перетворення тексту на мову. Наприклад, більшість новинних сайтів, у тому числі й ми, пропонують послуги машинного диктування, а голосові помічники, такі як Siri та Alexa, користуються величезною популярністю.

Однак більшість існуючих програм для створення мови вимагають великої кількості вхідних даних. Вони також не зовсім зрозуміли, як зробити так, щоб голоси ШІ звучали особливо по-людськи, в основному через те, що емоційний тон та крихітні інтонації неймовірно складно передати.

Чи дійсно система Майкрософт може забезпечити тональну складову, якщо на стороні введення потрібно зовсім небагато? Це велика справа.

Змішані почуття

За словами його творців, VALL-E має низку додатків, у тому числі «нульовий TTS, редагування мови та створення контенту», додавши, що система мовного моделювання OpenAI GPT-3 — технологія, яку Microsoft, на її думку, абсолютно величезні інвестиції в OpenAI, вклали масу ресурсів і вже працюють над кількома продуктами — було б особливо корисно поєднувати технологію з новим генератором мови як засіб створення контенту.

І якщо вам може сподобатися останнє, Microsoft дійсно має рацію. Теоретично, об'єднавши VALL-E та GPT-3 — дві потужні технології, засновані на штучному інтелекті, — ви могли б зібрати воєдино масу реалістично звучного та правдоподібного контенту неймовірно швидко.

Але це, звичайно, те, де в картину вступають деякі етично підступні гіпотези.

Фальшиві й такі, що вводять в оману звукові байти тут явно викликають занепокоєння — врешті-решт, якщо вам потрібно всього три секунди звуку, ви теоретично можете використовувати будь-що, від інтерв'ю зі знаменитістю до історії реальної людини в Instagram, щоб видати себе за кого щось.

З усім тим, Microsoft обережно відреагувала на цей занепокоєння, пояснивши, що утримується принаймні на цей момент від відкриття вихідного коду через «потенційні ризики неправильного використання моделі». Вони також стверджують, що працюють над впровадженням якоїсь системи, яка визначає, чи було аудіо створено за допомогою VALL-E, але, можливо, їм слід запитати своїх друзів у OpenAI, наскільки це просто.

Джерела: Ars Technica

Автор: Меггі Харрісон
putin-khuylo
Вакцинуйся!
ОСТАННІ КОМЕНТАРІ