ДіпМаінд створив тест для вимірювання здатності ШІ до міркування

Дослідники DeepMind створили програму, яка генерує унікальні проблеми з матрицями задля вимірювання коефіцієнту інтелекту (IQ) у штучного інтелекту.

ЗАГАЛЬНИЙ ІНТЕЛЕКТ. ШІ відмінно справлявся з виконанням певних завдань, але до сих пір далеко не так, як мати загальний інтелект, тип усіх розумових здібностей, які дозволяли б ШІ переміщатися по світу так само, як люди або навіть тварини.

Одним з ключових елементів загального інтелекту є абстрактне міркування - здатність мислити за межами «тут і зараз», щоб побачити більш тонкі шаблони і відносини і зайнятися складною думкою. У середу дослідники DeepMind - дочірньої компанії Google, що спеціалізується на штучному інтелекті, - опублікували документ, в якому детально викладалася їх спроба виміряти можливості абстрактних міркувань різних ШІ, і для цього вони звернулися до тих же тестів, які ми використовуємо для вимірювання наших власних.

ЛЮДСЬКИЙ IQ. У людей ми вимірюємо абстрактні міркування, використовуючи досить прості візуальні тести IQ. Один популярний тест, який отримав назву Progressive Matrices від Raven, містить кілька рядків зображень з остаточної рядком, в якій відсутній її остаточне зображення. Вибірник повинен вибрати образ, який повинен з'явитися пізніше, на основі шаблону завершених рядків.

Тест не дає одкровення сказати, що шукати в зображеннях - можливо, прогресія пов'язана з кількістю об'єктів в кожному зображенні, їх кольором або їх розміщенням. Це залежить від них, щоб зрозуміти, що для себе, використовуючи їх здатність міркувати абстрактно.

Щоб застосувати цей тест до ШІ, дослідники DeepMind створили програму, яка могла б генерувати унікальні проблеми з матрицями. Потім вони підготували різні системи ШІ для вирішення цих проблем матриці.

Нарешті, вони протестували системи. У деяких випадках вони використовували тестові проблеми з тими ж абстрактними чинниками, що і набір тренувань - як і навчання, так і тестування ШІ на проблемах, які вимагали від нього враховувати кількість фігур в кожному зображенні. В інших випадках вони використовували тестові проблеми, що включають різні абстрактні фактори, ніж ті, які були встановлені в навчальному наборі. Наприклад, вони можуть навчати ШІ проблем, які вимагали, щоб він враховував кількість фігур в кожному зображенні, але потім тестував їх на тих, які вимагали, щоб вони розглядали позиції фігур, щоб знайти правильну відповідь.

КРАЩЕ УДАЧАТЬ НАСТУПНЕ ЧАС. Результати тесту були невеликі. Коли проблеми з навчанням і проблеми з тестуванням були зосереджені на одних і тих же абстрактних факторах, системи працювали нормально, правильно відповідаючи на проблеми в 75% випадків. Проте, ШІ виконувалися дуже погано, якщо набір тестів відрізнявся від набору тренувань, навіть коли дисперсія була незначною (наприклад, навчання на матрицях, які відображали об'єкти темного кольору і тестування на матрицях, в яких були представлені світлі об'єкти).

В кінцевому рахунку, тест ШІ IQ команди показує, що навіть деякі з найсучасніших ШІ сьогодні не можуть зрозуміти проблеми, які ми не навчили їх вирішення. Це означає, що ми, ймовірно, ще далеко від загального ШІ. Але, принаймні, зараз у нас є прямий спосіб контролювати наш прогрес.

Джерела: DeepMind