Головна Новини

Програма ШІ з відкритим кодом може відповідати на наукові питання краще, ніж люди

Програма ШІ з відкритим кодом може відповідати на наукові питання краще, ніж люди
A. Mastin/Science
Розроблена вченими й для вчених, платформа OpenScholar покликана поліпшити пошук в науковій літературі, обсяг якої стрімко зростає.

Вчені отримали новий інструмент для відстеження експоненційно зростальної кількості наукових праць, яка у 2024 році перевищила 4 мільйони: програму штучного інтелекту (ШІ), розроблену спеціально для аналізу наукової літератури. Програма, що отримала назву OpenScholar і розроблена академічними дослідниками, а не будь-якою з провідних компаній в області ШІ, відповідає на запитання з різних тем досліджень точніше, ніж кілька універсальних чат-ботів, що широко використовуються, а в багатьох випадках навіть краще, ніж експерти-люди, йдеться в новому дослідженні.

Дослідження, опубліковане в журналі Nature, вперше з'явилося у вигляді препринта в листопаді 2024 року, і автори визнають, що нові версії інших великих мовних моделей (LLM), що лежать в основі ШІ, таких як ChatGPT, скоротили розрив з OpenScholar або навіть перевершили його. Однак інші дослідники хвалять творців OpenScholar з Інституту штучного інтелекту імені Аллена (Ai2) та п'яти університетів за те, що вони зробили його код та базові дані доступними безплатно, на відміну від широко використовуваних комерційних чат-ботів. «Безумовно, ці [пропрієтарні] системи стали кращими, але вони не проходять рецензування», — каже Мін-Єн Кан із Національного університету Сінгапуру, який вивчає інформаційні технології та наукову комунікацію. "Дуже важливо публікувати результати подібних [відкритих] досліджень, тому що вони відтворювані".

На запитання на кшталт «Як можна охолодити рух центру мас левітованих наночастинок?» OpenScholar відповідає, перевіряючи базу даних із 45 мільйонів статей з відкритим доступом, оптимізовану для пошуку з наукових тем, включаючи біомедицину, інформатику та фізику. На відміну від більш ранніх моделей LLM, які зазвичай надавали відповіді, засновані лише на одній статті зараз, OpenScholar аналізує зміст кількох релевантних статей. Крім того, відповіді OpenScholar на кілька сотень слів довші, ніж відповіді інших моделей, що допомагає йому вловлювати більше нюансів, корисних для вчених.

OpenScholar також критично оцінює та ітеративне покращує кожну відповідь, перш ніж остаточно її затвердити. Цей крок дозволив скоротити кількість ілюзорних посилань, сумнозвісну особливість LLM-систем, що використовуються в багатьох чат-ботах, як повідомляють творці в дослідженні.

Дослідницька група оцінила якість відповідей, отриманих OpenScholar, використовуючи програму порівняльного аналізу, засновану на рекомендаціях експертів у цій галузі. Було встановлено, що OpenScholar правильно відповів на 51% питань з інформатики, порівняно з 45% для GPT-4o, просунутої LLM-системи, створеної організацією OpenAI та доступною у 2024 році, коли дослідження було завершено. OpenScholar також показав вищий результат, ніж популярна LLM-система Meta, відома як Llama, код якої доступний дослідникам за певних обмежень. Експерти-люди з різних тем – 12 аспірантів та постдокторантів – віддали перевагу відповідям OpenScholar відповідям експертів у 51% випадків, а цей показник зріс до 70% при використанні LLM-системи у поєднанні з GPT-4o.

Джевін Вест, фахівець з аналізу даних з Вашингтонського університету, який не брав участі в дослідженні, закликає до обережності в інтерпретуванні отриманих результатів. "Нам складно визначити, що означає „краще“, тому що всередині однієї дисципліни існує велика різниця у думках щодо того, яка цитата є найкращою для підтвердження аргументу", — каже він. "У цьому напрямі буде потрібна подальша робота". Щобільше, за його словами, LLM покликані давати переконливі відповіді, навіть якщо в них відсутня змістовна основа. "Ми можемо бути трохи загіпнозовані їхньою здатністю до узагальнення".

Близько 30 000 вчених використали демонстраційну версію OpenScholar з моменту її запуску, і більшість з них працюють у дисциплінах, не пов'язаних з інформатикою, говорить провідний автор Акарі Асаї, фахівчиня з інформатики з Ai2. "Багато хто з них каже, що це корисно для швидкого розуміння чи швидкого виявлення великих статей", — каже вона. "Деякі з них є експертами у своїй галузі, але вони хотіли подивитися, чи не пропустили вони будь-які статті". Однак у статті визнається, що відсутність платного контенту в базі даних, що використовується OpenScholar, може обмежувати вірогідність отриманих відповідей.

Вчені, які використовують такі інструменти як OpenScholar, стикаються з ризиками, говорить Кан. Як і будь-який інший, хто використовує ШІ для отримання інформації, вони повинні самі вирішити, наскільки можна довіряти отриманим відповідям. "Якщо ви використовуєте ці інструменти замість першоджерел, це може бути небезпечно, тому що можуть бути втрачені деякі нюанси", - говорить Кан. Це може бути більш прийнятно в області, що швидко розвивається, такий як ШІ, де подібні інструменти можуть допомогти розібратися в стрімко зростальному обсязі літератури, ніж у такій галузі, як психіатрія, де на кону здоров'я пацієнтів.

Ще один ризик — це «зниження кваліфікації», каже Кетрін Коллінз, науковий співробітник у галузі когнітивних наук у Массачусетському технологічному інституті. "Мене непокоїть, що масштабування подібних систем може спонукати молодих вчених не заглиблюватися у вивчення наукової літератури, що може сприяти появі нових ідей та встановленню нових зв'язків", — каже Коллінз, співавтор статті про бенчмарки ШІ, опублікованої минулого тижня в журналі Nature. "Люди можуть втратити або не освоїти цю навичку у світі, де так легко отримати короткі огляди наукових праць".

Ці питання стануть ще актуальнішими в міру вдосконалення технологій. У листопаді 2025 року члени команди OpenScholar опублікували препринт, що описує більш просунуту модель LLM, що отримала назву DR Tulu-8B, яка генерує вичерпні звіти у відповідь на докладні питання з різних тем з різних джерел в інтернеті. За словами розробників, вона працює так само добре або навіть краще, ніж OpenScholar, експерти-люди та останні версії кількох інших провідних моделей LLM. Хоча вона не призначена виключно для вчених, команда вважає, що дослідники можуть її швидко впровадити.

Автор: Джеффрі Брейнард
putin-khuylo
ОСТАННІ КОМЕНТАРІ