Штучний інтелект, що генерує зображення, винайшов власну мову

Експерти зі штучного інтелекту сперечаються після вірусного допису у Твіттері, що система штучного інтелекту DALL-E від OpenAI створила власну приховану мову для категоризації зображень.

Дивовижна система ШІ для перетворення тексту на зображення від OpenAI під назвою DALL-E2, мабуть, створила власну письмову мову, за словами Янніса Дараса, аспіранта комп'ютерних наук Техаського університету в Остіні.

DALL-E2 спричинив фурор на початку цього року завдяки своїй надприродній здатності перетворювати текстові підказки на фотореалістичні або навіть художньо оформлені зображення, а тепер здається, що він може бути ще більш потужним і загадковим, ніж ми думали, здатним генерувати власний секретний код.

Наприклад, Дарас написав у вірусному ланцюжку у Твіттері, що просить алгоритм згенерувати зображення «фермери, що говорять про овочі», і генерує текст із невідомим словом «vicootes». Але якщо додати до алгоритму слово "vicootes", він видасть картинки з овочами.

Ще більш дивно, додав Дарас, те, що зображення фермерів містило явно безглуздий текст "poploe vesrreaitars". Введіть це в систему і ви отримаєте набір зображень птахів.

"Схоже, що фермери говорять про птахів, які пораються зі своїми овочами!", написав Дарас.

Загалом Дарас наводить докази на користь того, що в новій статті, написаній разом з колегою, що ще не пройшла рецензування, цей просунутий ШІ, що генерує зображення, мабуть, створив «прихований словник», що лежить в основі або працює паралельно з його основною функцією є, можливо, ще один приклад того, як складно пояснити роботу просунутого ШІ.

«У DALLE-2 є секретна мова», — написав Дарас, додавши пізніше, що «виявлення мови DALLE-2 створює багато цікавих проблем з безпекою та інтерпретованістю».

Варто відзначити, що висновки Дараса все ще дещо невизначені. Як він зазначає у статті, результати не співпадають на 100%. Іноді підказка "Contarra ccetnxniams luryca tanniounons" створює зображення жуків, а іноді — "в основному тварин".

Теорія Дараса також не всіх переконує.

"Моє найкраще припущення?" аналітик Бенджамін Хілтон стверджував. "Це випадковість. Або просто, може бути (якщо ви дійсно наполягаєте на мені), "Apoploe vesrreaitais" виглядає як біномна назва для деяких птахів або жуків."

"Для мене все це починає більше виглядати як стохастичний випадковий шум, ніж секретна мова DALL-E", – додала Хілтон.

Інша можливість полягає в тому, що ми зайшли надто далеко, відкриваючи здатність системи ШІ створювати ярлики, перетворюючи зображення на код, як вказує Vice.

Зайве говорити, що буде цікаво спостерігати за подальшим вивченням тверджень Дараса з боку дослідницької спільноти.

Якщо він пройде перевірку, можливо, ми спостерігаємо захоплюючу нову розробку в цій галузі — або, можливо, ми надаємо їй занадто велике значення і занадто багато читаємо між рядками.

Джерела: Vice