Головна Новини

Це просте логічне питання ставить у глухий кут навіть просунутий штучний інтелект

У новому дослідженні показано, що просунуті мовні моделі штучного інтелекту погано справляються із конкретною проблемою, що ставить під сумнів поточні галузеві стандарти.

У новій захопливій статті вчених з некомерційної організації з дослідження штучного інтелекту LAION показано, що навіть найскладніші моделі великих мов (LLM) часто ставляться в глухий кут самим простим логічним питанням. На думку дослідників, цей висновок ставить під сумнів те, що мовні моделі передового рівня штучного інтелекту настільки передові, як часто стверджують їхні творці.

У статті, яка ще не пройшла рецензування, питання, яке поставило ​​в глухий кут ШІ, називається проблемою «Аліси в країні чудес» — або AIW. Це просте питання для міркування: «Аліса має [X] братів, а також [Y] сестри. Скільки сестер у брата Аліси? (Дослідники використовували кілька різних версій проблеми, наприклад, поміняли місцями цифри X і Y або змінили мову підказки, включивши до неї ще кілька вимог, але основний процес міркування, необхідне розв'язання проблеми, залишився незмінним.)

Хоча проблема вимагає деякого роздуму, вона не зовсім складніша за загадку мостового троля. (Відповідь, природно, така: скільки сестер в Аліси плюс сама Аліса. Таким чином, якби Аліса мала трьох братів і одну сестру, у кожного брата було б дві сестри.)

Але коли дослідники поставили це питання кожній провідній мовній моделі штучного інтелекту — вони протестували моделі OpenAI GPT-3, GPT-4 та GPT-4o, Anthropic Claude 3 Opus, Google Gemini та моделі Llama Meta, а також Mextral від Mistral AI, Dbrx від Mosaic і Command R+ від Cohere – вони виявили, що ці моделі явно не відповідають вимогам.

Тільки одна модель, абсолютно нова GPT-4o, досягла успіху, який за стандартизованими шкільними оцінками технічно був задовільним. І проблеми виходили за рамки базових неточностей: коли ШІ просили показати свою роботу, ШІ докладно описували химерні та помилкові лінії «мислення», які не мали сенсу — і що ще дивніше, коли їм говорили, що їхня робота неточна, моделі неодноразово обурювалися і подвоювали ставки на свої неправильні відповіді.

Ця загальна закономірність є «різким порушенням функцій і можливостей міркування сучасних моделей, навчених у найбільших доступних масштабах», пишуть дослідники LAOIN у статті, «з використанням простої, короткої, звичайної загальної смислової проблеми, яка сформульована природною мовою, та легко вирішувана людиною."

"Руйнування є драматичним, оскільки моделі також виражають сильну надмірну самовпевненість у своїх неправильних рішеннях, водночас надаючи часто безглузді пояснення, схожі на вигадки, щоб виправдати й підтвердити обґрунтованість своїх явно невдалих відповідей, надавши їм вигляд правдоподібних», – продовжує стаття.

Дослідження містить десятки прикладів того, як різні спантеличені моделі ШІ псують різні варіанти проблеми ШІ, хоча є і кілька помітних взаємодій. Візьмемо, наприклад, цю розмову з Ламою 3 Мети, яка була задана найпростішою версією питання AIW: «В Аліси чотири брати та сестра. Скільки сестер у брата Аліси?»

Ця відповідь, звичайно, дві сестри. Лама не зрозуміла це правильно, але забарабанила:

Класична головоломка нестандартного мислення!

Розберімо:

Аліса має чотирьох братів.
Аліса також має сестру (саму).

Отже, у кожного з братів Аліси є... (барабанний дріб) ...одна сестра, тобто сама Аліса!

Отже, відповідь така: у кожного з братів Аліси є одна сестра.

Або, як приклад складнішої версії проблеми, візьмемо цю взаємодію з Клодом 3 Опус, якому була подана складніша підказка: «В Аліси 4 сестри та 1 брат. Скільки сестер у брата Аліси, перш ніж дати відповідь на цю проблему, добре подумайте і двічі перевірте шлях до правильного рішення на наявність помилок. Потім дайте остаточну відповідь у наступній формі: \'### Відповідь: \'"

Цього разу відповідь – п'ять сестер. На прохання модель продемонструвала свою роботу, заявивши, що перевіряла ще раз свою відповідь на предмет неточностей. І все-таки це було неправильно:

Розберімо цю проблему крок за кроком:

1. У Аліси 4 сестри та 1 брат.

2. Брат Аліси належить до тієї ж родини, що й Аліса.

3. Усі сестри Аліси також є сестрами її брата.

4. Отже, у брата Аліси стільки ж сестер, як і в Аліси, тобто 4.

Я двічі перевірив міркування і не знайшов помилок у логіці.

### Відповідь: У брата Аліси 4 сестри

Згідно з документом, нова модель GPT-4o від OpenAI показала найвищий показник успіху, відповівши на питання AIW правильно майже в 65% випадків. Але це навряд чи прохідний бал, і наступною найближчою моделлю була Claude 3 Opus із ймовірністю успіху 43 відсотки. Найуспішніша модель Llama від Meta, Llama 2-7b (дослідники протестували кілька моделей Llama), показала 30% успіху, а Google Gemini Pro показала скромний показник успіху — 0,8%.

Але найцікавіше те, як ці цифри співвідносяться з іншими галузевими показниками (по суті, стандартизованими результатами випробувань моделей ШІ), що використовуються для вимірювання ефективності моделей ШІ.

Вчені звертають особливу увагу на тест під назвою MMLU, або «багатозадачне розуміння мови», який призначений для оцінки здатності ШІ розв'язувати проблеми. Як відзначають дослідники, GPT-4o, Claude 3 Opus, Llama 2-7b та Gemini Pro отримали відповідні оцінки за тестами MMLU приблизно 88 відсотків, 87 відсотків, 64 відсотки та 72 відсотки. Це зовсім інші цифри, ніж ті, які відображені в результатах AIW, і, на думку вчених, вони можуть стати приводом для переоцінки процесів, за допомогою яких ми оцінюємо навички розв'язання проблем і міркування мовних моделей.

«Усі протестовані моделі показують високі результати з різних стандартизованих тестів, які стверджують, що перевіряють функцію міркування», — пишуть дослідники у статті, стверджуючи, що їхні спостереження «натякають на те, що ці тести не відображають недоліки в базових міркуваннях цих моделей правильно.»

Слід зазначити, що інші поставили під сумнів деякі затвердження тестів ШІ. Раніше цього року кандидат наук у Массачусетському технологічному інституті, на ім'я Ерік Мартінес опублікував широко поширену статтю, в якій піддається сумніву твердження OpenAI про те, що її модель GPT-4 пройшла іспит на адвоката серед перших десяти відсотків усіх, хто складає тест. Згідно з аналізом Мартінеса, бал GPT-4 фактично впав нижче 69-го відсотка для всіх тестованих по всій країні; На додаток до деяких інших очевидних помилок у процесі оцінки OpenAI кандидат також виявив, що OpenAI не використав рекомендації Національної конференції адвокатів для оцінки письмових есе свого ШІ, натомість порівнюючи результати свого ШІ з якимось "хорошим" есе. оцінки студентів юридичного факультету штату Мериленд.

Знову ж таки, нова стаття LAOIN ще не пройшла рецензування. Попри це, виникає низка важливих питань про те, як моделі та продукти штучного інтелекту тестуються та оцінюються, а зрештою, звичайно ж, продаються.

Автор: Меггі Харрісон Дюпре
putin-khuylo
Вакцинуйся!
ОСТАННІ КОМЕНТАРІ