Категории: Новости

ИИ помогает разгадать тайны вирусов в океанах и нашем кишечнике

Вирусы — загадочная и плохо изученная сила в микробных экосистемах. Исследователи знают, что они могут заражать, убивать и манипулировать человеческими и бактериальными клетками практически в любой среде, от океана до кишечника.

Но у ученых пока нет полной картины того, как вирусы влияют на окружающую среду в мире. во многом из-за их необычайного разнообразия и способности быстро развиваться.

Сообщества микробов трудно изучать в лабораторных условиях. Многие микробы сложно культивировать, а их естественная среда имеет гораздо больше особенностей, влияющих на их успех или неудачу, чем ученые могут воспроизвести в лаборатории.

Поэтому системные биологи, такие как я, часто секвенируют всю ДНК, присутствующую в образце – например, образец фекалий пациента — выделите последовательности вирусной ДНК, затем аннотируйте участки вирусного генома, кодирующие белки.

Эти заметки о расположении, структуре и других особенностях генов помогают исследователи понимают функции, которые вирусы могут выполнять в окружающей среде, и помогают идентифицировать различные типы вирусов.

Исследователи аннотируют вирусы, сопоставляя вирусные последовательности в образце с ранее аннотированными последовательностями, доступными в общедоступных базах данных вирусных генетических последовательностей.

Однако ученые идентифицируют вирусные последовательности в ДНК, собранной из окружающей среды, со скоростью, которая намного превосходит наши возможности аннотировать эти гены. Это означает, что исследователи публикуют данные о вирусах в микробных экосистемах, используя неприемлемо малую часть доступных данных.

Чтобы улучшить способность исследователей изучать вирусы по всему миру, я и моя команда разработали новый подход к аннотированию вирусов. последовательности с использованием искусственного интеллекта.

С помощью моделей белкового языка, похожих на большие языковые модели, такие как ChatGPT, но специфичных для белков, мы смогли классифицировать ранее невидимые вирусные последовательности. Это открывает перед исследователями возможность не только узнать больше о вирусах, но и решить биологические вопросы, на которые трудно ответить с помощью современных методов.

Аннотирование вирусов с помощью ИИ

Использование больших языковых моделей отношения между словами в больших наборах текстовых данных, чтобы обеспечить потенциальные ответы на вопросы, ответ на которые им не «обучен» явно.

Когда вы спрашиваете чат-бота «Какая столица Франции?» например, модель не ищет ответ в таблице столиц. Скорее, он использует обучение на огромных наборах данных документов и информации, чтобы вывести ответ: «Столица Франции — Париж».

Аналогично, модели белкового языка — это алгоритмы ИИ, которые обучены распознавать взаимосвязи между миллиарды белковых последовательностей из окружающей среды по всему миру. Благодаря этому обучению они, возможно, смогут сделать какие-то выводы о сущности вирусных белков и их функциях.

Мы задавались вопросом, смогут ли модели белкового языка ответить на этот вопрос: «Учитывая все аннотированные вирусные генетические последовательности, что это такое?» функция новой последовательности?»

В нашем доказательстве концепции мы обучили нейронные сети на ранее аннотированных последовательностях вирусных белков в предварительно обученных моделях белкового языка, а затем использовали их для прогнозирования аннотаций новых последовательностей вирусных белков.

Наш подход позволяет нам исследовать, что модель «видит» в конкретной вирусной последовательности, которая приводит к определенной аннотации. Это помогает идентифицировать интересующие белки-кандидаты либо на основе их конкретных функций, либо на основе того, как устроен их геном, отсеивая пространство поиска в обширных наборах данных.

Прохлорококк – один из многих видов морских бактерий, белки которых исследователи раньше не видели. (Энн Томпсон/Лаборатория Чисхолм, Массачусетский технологический институт, через Flickr)

Путем определения более отдаленно связанных функций вирусных генов, моделей белкового языка может дополнить существующие методы и дать новое понимание микробиологии.

Например, мы с моей командой смогли использовать нашу модель для открытия ранее нераспознанной интегразы – типа белка, который может перемещать генетическую информацию внутрь и наружу. клеток – у распространенных во всем мире морских пикоцианобактерий Prochromococcus и Synechococcus.

Примечательно, что эта интеграза может быть способна перемещать гены в эти популяции и из них. бактерий в океанах и позволяют этим микробам лучше адаптироваться к изменяющейся окружающей среде.

Наша языковая модель также выявила новый вирусный капсидный белок, широко распространенный в мировом океане. Мы создали первую картину того, как устроены его гены, показав, что он может содержать разные наборы генов, что, по нашему мнению, указывает на то, что этот вирус выполняет разные функции в окружающей среде.

Эти предварительные результаты представляют собой лишь две из тысяч аннотаций. наш подход обеспечил это.

Анализ неизвестного

Большинство из сотен тысяч вновь обнаруженных вирусов остаются неклассифицированными. Многие вирусные генетические последовательности соответствуют семействам белков, функция которых неизвестна или никогда ранее не наблюдалась. Наша работа показывает, что подобные модели белкового языка могут помочь изучить угрозу и перспективу многих неохарактеризованных вирусов нашей планеты.

Хотя наше исследование сосредоточено на вирусах в мировых океанах, улучшенное аннотирование вирусных белков имеет решающее значение для лучшего понимания. роль, которую вирусы играют в здоровье и заболеваниях человеческого организма.

Мы и другие исследователи предположили, что вирусная активность в микробиоме кишечника человека может изменяться во время болезни. Это означает, что вирусы могут помочь выявить стресс в микробных сообществах.

Однако наш подход также ограничен, поскольку требует высококачественных аннотаций. Исследователи разрабатывают новые модели белкового языка, которые включают в себя другие «задачи» в рамках их обучения, в частности, прогнозирование белковых структур для обнаружения похожих белков, чтобы сделать их более мощными.

Сделать все инструменты искусственного интеллекта доступными через принципы FAIR Data – данные, которые можно найти, которые доступны, совместимы и пригодны для повторного использования – могут помочь исследователям в целом реализовать потенциал этих новых способов аннотирования белковых последовательностей, ведущих к открытиям, которые приносят пользу здоровью человека.

Либуша Келли, доцент кафедры системной и вычислительной биологии, микробиологии и иммунологии, Медицинский колледж Альберта Эйнштейна

Эта статья переиздана из The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.

Виктория Ветрова

Космос полон тайн...

Недавние Посты

«Важное открытие»: после многих лет исследований ученые обнаружили новую химическую реакцию

Особое наблюдение во время лабораторных экспериментов привело исследователей к прорыву на всю жизнь.После многих лет…

14.03.2026

Исследование предполагает, что женщины в космосе могут столкнуться со скрытым риском образования тромбов

Ни для кого не секрет, что длительное пребывание в условиях невесомости негативно сказывается на организме…

14.03.2026

Эта эпическая туманность выглядит как гигантский мозг, парящий в космосе

JWST сделал одно из самых устрашающе красивых изображений: светящееся облако газа и пыли, напоминающее гигантский…

14.03.2026

Самая энергичная частица-призрак, которую когда-либо видели, возможно, возникла из струй черных дыр

Представьте себе, что вы ловите одну каплю дождя и понимаете, что она упала из-за шторма…

13.03.2026

Самая большая в истории радиокарта неба обнаружила 13,7 миллиона скрытых объектов

Наш взгляд на космос полностью меняется в зависимости от того, как мы его наблюдаем.Теперь астрономы…

13.03.2026

Странный «чириканье» может раскрыть причину самых ярких сверхновых во Вселенной

Никогда ранее не наблюдавшийся «чириканье» в свете взрывающейся звезды дало новые подсказки о двигателе, приводящем…

12.03.2026