Новий алгоритм дозволяє штучному інтелекту вчитися на помилках, як людина

OpenAI продовжує робити успіхи в алгоритмах навчання агентів штучного інтелекту. Їх остання платформа, що була випущена в кінці лютого, дозволяє штучному інтелекту вчитися на своїх помилках, розглядаючи їх як цілі замість невдач.

Зворотний ШІ

В останні місяці дослідники з OpenAI зосередилися на розробці штучного інтелекту (ШІ), який вчиться краще. Їх алгоритми машинного навчання тепер здатні навчати себе, так би мовити, завдяки методам навчання підкріплення їх базових ліній OpenAI. Тепер новий алгоритм дозволяє їх ШІ вчитися на своїх помилках, майже так само, як люди.

Розробка відбувається з нового алгоритму з відкритим вихідним кодом під назвою Hindsight Experience Replay (HER), який дослідники OpenAI опублікували раніше на цьому тижні. Як випливає з назви, ШІ допомагає агенту штучного інтелекту «озирнутися» заднім числом, так би мовити, у міру виконання завдання. Зокрема, ШІ оновлює невдачі як успіхи, згідно блогу OpenAI.

«Ключове розуміння, яке ШІ формалізує, - це те, що люди роблять інтуїтивно: незважаючи на те, що нам не вдалося досягти певної мети, ми, принаймні, досягли іншого», - пишуть дослідники. «Так чому б просто не прикинутися, що ми хочемо досягти цієї мети, а не тієї, яку ми спочатку вирішили досягти?»

Простіше кажучи, це означає, що кожна невдала спроба як ШІ працює в напрямку мети, вважається інший, ненавмисної «віртуальної» метою.

Згадайте, коли ви навчилися кататися на велосипеді. На перших двох спробах ви фактично не змогли правильно збалансувати. Проте, ці спроби навчили вас, як не їхати належним чином, і чого уникати при балансуванні на велосипеді. Кожна невдача наближала вас до вашої мети, тому що так вчаться люди.

Нагорода за кожну невдачу

З HER OpenAI хоче, щоб їх агенти AI вчилися однаково. У той же час ця система стане альтернативою звичайній системі винагород, що бере участь в моделях навчання підкріпленню. Щоб навчити ШІ вчитися самостійно, він повинен працювати з системою винагород: або ШІ досягає своєї мети, або отримує алгоритм «cookie», або ні. Інша модель видає файли cookie в залежності від того, наскільки близько ШІ досягне мети.

Обидва методи не ідеальні. Перший затримує навчання, тому що ШІ або отримує його, чи ні. другий, з іншого боку, може бути досить складним для реалізації, згідно IEEE Spectrum. Розглядаючи кожну спробу як мета в ретроспективі, ШІ дає агент ШІ винагороду навіть тоді, коли воно фактично не виконало завдання. Це допомагає ШІ вчитися швидше і якісно.

"Виконуючи цю заміну, алгоритм навчання підкріплення може отримати навчальний сигнал, оскільки він досяг якоїсь мети; навіть якщо це був не той, який ви хотіли досягти спочатку. Якщо ви повторите цей процес, ви, врешті-решт, дізнаєтеся , як досягти довільних цілей, включаючи цілі, які ви дійсно хочете досягти», - йдеться в блозі OpenAI.

Ось приклад того, як HER працює з імітацією Fetch OpenAI.

Цей метод не означає, що HER спрощує для агентів ШІ вивчення конкретних завдань. «Навчання за допомогою HER на реальних роботах як і раніше складно, оскільки для цього все ще потрібна значна кількість зразків», - сказав Matthias Plappert від OpenAI в IEEE Spectrum.

В будь-якому випадку, як продемонстрували симуляції OpenAI, ШІ може бути вельми корисним при «заохочення» агентів АІ вчитися навіть по їх помилок, в значній мірі, як і всі ми, - головна відмінність полягає в тому, що ШІ не переймаються, як решта з нас слабкі люди.

Джерела: Spectrum, OpenAI, arXiv