Штучний інтелект значно поступається за ефективністю колегам-людям

Ряд сліпих оцінок показав, що резюме, написані людиною, оцінюються значно краще, ніж резюме, створені штучним інтелектом.

Підіб'ємо підсумки

За даними дослідження Австралійської комісії з цінних паперів та інвестицій (ASIC), опублікованим австралійським виданням Crikey, генеративний ШІ абсолютно жахливо підсумовує інформацію порівняно з людьми.

Тестування, проведене Amazon Web Services, було замовлено державним регуляційним органом як доказ концепції можливостей генеративного штучного інтелекту і, зокрема, його потенціалу для використання в бізнес-середовищі.

Результати тестування показали, що цей потенціал не виглядає перспективним.

У серії сліпих оцінок генеративні резюме реальних урядових документів, створені за допомогою ШІ, разом набрали жахливі 47 відсотків, виходячи з рубрики дослідження, і рішуче поступилися резюме, створеними людиною, які набрали 81 відсоток.

Результати відображають загальну тему в нинішньому сплеску генеративних технологій штучного інтелекту: моделі штучного інтелекту не тільки є поганою заміною для людей, але й через їхню жахливу надійність неясно, чи знайдуть вони якесь практичне застосування на робочому місці для більшості організацій.

Фірмова потворність

В оцінці використовувалася модель Llama2-70B від Meta з відкритим вихідним кодом, яка не є новітньою моделлю, але з 70 мільярдами параметрів вона безперечно працездатна.

Моделі штучного інтелекту було доручено узагальнити документи, подані на парламентське розслідування, і, зокрема, зосередитися на тому, що пов'язано з ASIC, наприклад, де згадується організація, а також включити посилання та номери сторінок. Окрім ШІ, співробітників ASIC попросили написати власні резюме.

Потім п'ятьом оцінювачам було запропоновано оцінити резюме, створені людьми та штучним інтелектом, після прочитання оригінальних документів. Це робилося наосліп — зведення були просто помічені A і B — і фахівці з підрахунку балів поняття не мали, що ШІ взагалі в цьому замішаний.

Принаймні вони не повинні були цього знати. Наприкінці, коли експерти закінчили роботу і їм розповіли про справжню природу експерименту, троє сказали, що підозрювали, що дивляться на результати ШІ, що саме собою досить вбивчо.

Відстій по всіх пунктах

Загалом результати ШІ за всіма критеріями виявилися нижчими, ніж у людей, йдеться у звіті.

Удар перший: модель ШІ була зовсім нездатна вказати номери сторінок, на яких вона отримала інформацію.

Це те, наголошується у звіті, що можна виправити, трохи попрацювавши з моделлю ШІ. Але більш фундаментальна проблема полягала в тому, що ШІ регулярно не міг вловити нюанси або контекст і часто робив такий вибір що підкреслити або виділити, що збивав з пантелику.

Окрім цього, резюме ШІ, як правило, включали нерелевантну та надмірну інформацію і, як правило, були «безглуздими» та «багатослівними».

Підсумок: ці зведення ШІ були настільки поганими, що експерти погодилися, що їх використання може вимагати додаткової роботи в майбутньому через обсяг перевірки фактів, які вони надають. Якщо це так, то передбачувані переваги використання цієї технології — скорочення витрат та економія часу — наражаються на серйозний сумнів.

Джерела: Crikey