Інтернет має Google. Тепер у біології є MetaGraph. Ця пошукова система, детально описана в Nature, здатна швидко аналізувати колосальні обсяги біологічних даних, що зберігаються у публічних репозиторіях.
«Це величезне досягнення», - говорить Райан Чіхі, дослідник в галузі біокомп'ютерних обчислень з Інституту Пастера в Парижі. «Вони встановлюють новий стандарт» аналізу необроблених біологічних даних, включаючи послідовності ДНК, РНК та білків, з баз даних, які можуть містити мільйони мільярдів фрагментів ДНК, що становить цілі "петабази" інформації - більше записів, ніж усі вебсторінки в розлогому індексі Google.
Хоча MetaGraph позиціюється як Google для ДНК, Чіхі порівнює цей інструмент з пошуковою системою для YouTube, оскільки завдання вимагають великих обчислювальних витрат. Подібно до того, як пошук на YouTube дозволяє знайти будь-яке відео, в якому, наприклад, є червоні повітряні кулі, навіть якщо ці ключові слова відсутні в назві, тегах або описі, MetaGraph може виявляти генетичні закономірності, приховані глибоко в великих наборах даних секвенування, без їх явного анотування заздалегідь.
«Це дозволяє робити те, що неможливо зробити в інший спосіб», — каже Чіхі.
Індексування бібліотеки життя
Мотивацією MetaGraph було розв'язання проблеми доступності наборів даних секвенування. Обсяг цих репозиторіїв стрімко зріс за останні кілька десятиліть, але це зростання створило труднощі для вчених, які використовують дані, що містяться в них. Первинні дані секвенування фрагментовані, зашумлені та надто численні для прямого пошуку. «Як не парадоксально, обсяг даних є головною перешкодою для їх фактичного використання», - говорить Артем Бабаян, фахівець з обчислювальної біології з Університету Торонто в Канаді.
За словами одного з авторів дослідження, Андре Калеса, біоінформатика зі Швейцарської вищої технічної школи (ETH) в Цюриху (Швейцарія), MetaGraph може допомогти дослідникам у пошуку відповідей на біологічні питання, пов'язані з такими репозиторіями, як Архів прочитань послідовностей (SRA) – загальнодоступна база даних.
Вони розв'язали цю проблему, використовуючи математичні "графи", які пов'язують фрагменти ДНК, що перекриваються, подібно до речень з однаковими словами, розташовані у книжковому індексі.
Дослідники інтегрували дані із семи фінансованих державою репозиторіїв даних, створивши 18,8 мільйона унікальних наборів послідовностей ДНК та РНК та 210 мільярдів наборів послідовностей амінокислот по всіх кладах життя, включаючи віруси, бактерії, гриби, рослини та тварини, включаючи людину. Вони також розробили пошукову систему для цих послідовностей, де користувачі використовують текстові підказки для пошуку в цих інтегрованих архівах необроблених даних.
«Це зовсім новий спосіб взаємодії з цим масивом даних», - говорить Кейлс. «Вони стиснуті, але доступні миттєво».
Щоб продемонструвати ефективність MetaGraph, автори дослідження використовували його для сканування 241 384 зразків мікробіому кишківника людини по всьому світу на предмет генетичних індикаторів стійкості до антибіотиків, спираючись на роботу, в якій використовувалася попередня версія інструменту для відстеження генів стійкості до ліків у бактеріальних штамах, що мешкають у системах метро у великих міських центрах. Автори стверджують, що провели аналіз приблизно за годину на потужному комп'ютері.