Головна Новини

Штучний інтелект створив білки, які раніше ніколи не бачили

Гени зі спорідненими функціями групуються разом, і штучний інтелект, навчений на бактеріальних геномах, це використовує.

Системи штучного інтелекту (ШІ) останнім часом досягли значних успіхів в одному з ключових аспектів біології: вивченні взаємозв'язку між структурою білка та його функцією. Ці зусилля включають здатність передбачати структуру більшості білків і проєктувати білки, структуровані таким чином, щоб вони виконували корисні функції. Але всі ці зусилля зосереджені на білках та амінокислотах, з яких вони складаються.

Проте біологія не генерує нові білки на цьому рівні. Натомість зміни мають відбутися в нуклеїнових кислотах, перш ніж їхня присутність зрештою проявиться через білки. Інформація на рівні ДНК досить віддалена від білків, з великою кількістю критичних послідовностей, що не кодують, надмірністю і достатнім ступенем гнучкості. Необов'язково очевидно, що вивчення структури геному допоможе системі ШІ зрозуміти, як виробляти функціональні білки.

Однак тепер здається, що використання бактеріальних геномів для навчання може допомогти розробити систему, здатну передбачати білки, деякі з яких не схожі ні на що, що ми бачили раніше.

Навчання моделі геному

Нову роботу було виконано невеликою групою зі Стенфордського університету. В основі цієї моделі лежить характерна для бактеріальних геномів особливість: кластеризація генів із пов'язаними функціями. Найчастіше всі гени, необхідні для виконання заданої функції — доставляння і травлення цукру, синтезу амінокислоти й все таке — розташовані в геномі поруч друг з одним. У багатьох випадках усі гени транскрибуються в одну велику інформаційну РНК. Це дозволяє бактеріям легко контролювати активність цілих біохімічних шляхів одночасно, збільшуючи ефективність бактеріального метаболізму.

Отже, дослідники розробили так звану геномну мовну модель (Evo), використовуючи величезну колекцію бактеріальних геномів. Навчання було схоже на те, що можна побачити у великій мовній моделі, де Evo пропонується передбачити наступну основу в послідовності та винагороджується, якщо вона робить це правильно. Це також генеративна модель, оскільки вона може приймати підказку і видавати нові послідовності з деяким ступенем випадковості, в тому сенсі, що та сама підказка може генерувати цілий ряд різних результатів.

Дослідники стверджують, що така конфігурація дозволяє Evo «пов'язувати патерни на рівні нуклеотидів із геномним контекстом у масштабі кілобаз». Іншими словами, якщо ви дасте їй великий фрагмент геномної ДНК, Evo зможе інтерпретувати його так само як LLM інтерпретує запит, і дасть результат, який з погляду геноміки відповідає цій інтерпретації.

Дослідники припустили, що, враховуючи навчання на бактеріальних геномах, вони можуть використовувати відомий ген як підказку, і Evo повинна видати результат, що включає області, що кодують білки з пов'язаними функціями. Ключове питання полягало в тому, чи буде вона просто виводити послідовності білків, про які ми вже знаємо, або її висновок буде менш передбачуваним.

Нові білки

Щоб розпочати тестування системи, дослідники запропонували їй фрагменти генів відомих білків та визначили, чи зможе Evo доповнити їх. В одному з прикладів, якщо було надано 30% послідовності гена відомого білка, Evo змогла вивести 85% послідовності, що залишилася. При наданні 80% послідовності система змогла вивести всю недостатню послідовність. При видаленні одного гена з функціонального кластера Evo також могла правильно ідентифікувати й відновити ген, якого бракує.

Великий обсяг навчальних даних також гарантував, що Evo правильно ідентифікувала найважливіші області білка. Якщо зміни в послідовність вносилися, вони зазвичай знаходилися в областях білка, де допустима варіабельність. Інакше кажучи, навчання дозволило системі враховувати правила еволюційних обмежень зміни відомих генів.

Тому дослідники вирішили перевірити, що станеться, якщо Evo попросять вивести щось нове. Для цього вони використовували бактеріальні токсини, які зазвичай кодуються разом з антитоксином, який не дає клітині самознищуватися при активації генів. Існує безліч подібних прикладів, і вони, як правило, швидко еволюціонують у рамках перегонів озброєнь між бактеріями та їх конкурентами. Тому команда розробила токсин, який був лише віддалено пов'язаний з відомими та не мав відомого антитоксину, і дала його послідовність Evo як підказку. І цього разу вони відфільтрували всі відповіді, що виглядали схожими на відомі гени антитоксинів.

Протестувавши 10 результатів, повернутих Evo, вони виявили, що половина з них змогла частково відновити токсичність, а два з них повністю відновили зростання бактерій, які продукують токсин. Ці два антитоксини мали лише вкрай слабку подібність із відомими антитоксинами, близько 25% ідентичності послідовностей. І вони були просто сформовані шляхом склеювання кількох фрагментів відомих антитоксинів; Як мінімум вони, мабуть, були зібрані з фрагментів 15–20 окремих білків. У додатковому тесті було потрібно зібрати вихідні дані з фрагментів 40 відомих білків.

Успіх Evo не обмежувався білками. При тестуванні іншого токсину з інгібітором на основі РНК система змогла вивести ДНК, що кодує РНК з потрібними структурними характеристиками, навіть якщо конкретна послідовність не була тісно пов'язана ні з чим відомим.

Абсолютно нові білки

Команда провела аналогічний тест з інгібіторами системи CRISPR, яку ми використовуємо для редагування генів, але бактерії еволюціонували як форма захисту від вірусів. Природні інгібітори CRISPR дуже різноманітні, і деякі з них, очевидно, пов'язані один з одним. Команда знову відфільтрувала результати, включивши тільки ті, що кодували білки, і виключивши всі білки, схожі на щось відоме. Зі списку результатів, з яких були отримані білки, 17 відсотків змогли інгібувати функцію CRISPR. Два з них відрізнялися тим, що не мали подібності з жодним з відомих білків і збивали з пантелику програмне забезпечення, призначене для прогнозування тривимірної структури білків.

Іншими словами, поряд з очікуваними результатами, Evo, мабуть, здатна генерувати абсолютно нові, але при цьому функціональні білки. І, так видається, робить це, не зважаючи на структуру білка.

Враховуючи, що їх система, ймовірно, працює, дослідники вирішили використовувати для її запуску практично все: 1,7 мільйона окремих генів бактерій і вірусів, які на них полюють. В результаті вийшло 120 мільярдів пар основ ДНК, згенерованих ШІ, деякі з яких містять вже відомі нам гени, а деякі, ймовірно, містять абсолютно нові дані. Незрозуміло, як хтось зможе продуктивно використати цей ресурс, але ймовірно знайдуться креативні біологи, які щось вигадають.

Неясно, чи буде цей підхід працювати зі складнішими геномами, подібними до нашого. Організми, подібні до хребетних, в основному не групують гени зі зв'язаними функціями, а їх гени мають набагато складнішу структуру, яка може спантеличити систему, яка намагається вивчити статистичні правила базових частот. І, якщо бути точним, це вирішує завдання, відмінні від тих, які були розроблені в результаті цілеспрямованого проєктування ферментів, що виконують корисні функції, наприклад, перетравлення пластику.

Проте дивно, що це взагалі працює. І з концептуального погляду це цікаво, тому що переносить проблему пошуку функціональних білків на рівень нуклеїнових кислот, де еволюція зазвичай робить свою справу.

Автор: Джон Тіммер
putin-khuylo
ОСТАННІ КОМЕНТАРІ