Головна Новини

Дослідники розробляють новий алгоритм навчання штучного інтелекту

Дослідники штучного інтелекту в OpenAI приступили до впровадження нового посиленого методу навчання, званого проксимальною оптимізацією політики для навчання моделей штучного інтелекту. Цей новий алгоритм простіше у використанні і забезпечує кращу продуктивність.

Методи градієнта політики

Багато з наших сучасних систем штучного інтелекту (AI) в значній мірі засновані на алгоритмах машинного навчання і глибоких нейронних мережах і здатні виконувати такі завдання, як люди. У деяких випадках ще краще. Одним з найбільш популярних прикладів цього є Go-playing AI AlphaGo від DeepMind, який вже неодноразово бив професійних гравців Go.

Успіх таких систем ШІ може бути віднесений, щонайменше частково, до методу навчання підкріпленням, званому методами градієнта політики. Метод градієнта політики оптимізує політики AI, які працюють в межах параметрів, які були визначені на основі очікуваного результату. Крім AlphaGo, ця техніка також використовувалася для управління глибокими нейронними мережами у відеоіграх і 3D-локомоції.

Однак дослідники з OpenAI відзначають, що такий метод має свої межі. Щоб подолати обмеження, ці дослідники почали використовувати новий алгоритм навчання підкріпленню, званий Proximal Policy Optimization (PPO), який виявляється набагато простіше для реалізації і тонкої настройки. «Ми пропонуємо нове сімейство методів градієнта політики для навчання підкріпленню, які чергуються між даними вибірки за допомогою взаємодії з навколишнім середовищем і оптимізацією« сурогатної »цільової функції з використанням стохастичного градієнтного сходження», - пишуть дослідники в дослідженні, опублікованому онлайн минулого тижня.

Поліпшення здатності ШІ до навчання

Щоб поліпшити можливості ШІ для навчання та адаптації до нових ситуацій, OpenAI пропонує покладатися на PPO, які, як вони кажуть, «знаходять баланс між простотою реалізації, складністю вибірки і простотою настройки, намагаючись вирахувати оновлення на кожному етапі, Мінімізує функцію витрат при одночасному забезпеченні того, щоб відхилення від попередньої політики було відносно невеликим », - пояснив блог в OpenAI. 

Вони продемонстрували, як PPO працює, розробляючи інтерактивні агенти ШІ в своїй штучному середовищі Roboschool. «PPO дозволяє нам тренувати політику ШІ в складних умовах», - сказав блог. Він тренує агента ШІ, щоб досягти мети [...], вчитися ходити, бігати, повертатися, використовувати свій імпульс, щоб оговтатися від дрібних хітів, і як встати з землі, коли він збитий з ніг ». Інтерактивними агентами були Здатний стежити за новими цільовими позиціями, встановленими за допомогою клавіатури сам по собі, не дивлячись на те, що вони відрізняються від того, що були в основному навчені агентам. Коротше кажучи, їм вдалося не просто вчитися, але узагальнювати.

Цей метод навчання посиленню може також використовуватися для навчання роботів адаптації до навколишнього середовища. Дослідники OpenAI протестували ідею моделювання симулятора Bostap Dynamics «Двоногий робот Atlas». Це було ще складніше, ніж попередній експеримент, оскільки оригінальний інтерактивний агент OpenAI мав 30 відмінних суглобів, тоді як у Atlas було тільки 17.

Використовуючи PPO, OpenAI сподівається розробити ШІ, який може не тільки адаптуватися до нових середах, але робити це швидше і ефективніше. З цією метою вони закликають розробників спробувати його. Як вони писали на своєму веб-сайті: «Ми шукаємо людей, щоб допомогти побудувати і оптимізувати нашу кодову базу алгоритмів навчання підкріплення».

Література: Блог OpenAI, arXiv

Автор: Дом Геліон
Читайте також:
putin-khuylo
Вакцинуйся!
ОСТАННІ КОМЕНТАРІ