ИИ помогает разгадать тайны вирусов в океанах и нашем кишечнике

ИИ помогает разгадать тайны вирусов в океанах и нашем кишечнике Arenavirus photographed under a transmission electron microscope.

Вирусы — загадочная и плохо изученная сила в микробных экосистемах. Исследователи знают, что они могут заражать, убивать и манипулировать человеческими и бактериальными клетками практически в любой среде, от океана до кишечника.

Но у ученых пока нет полной картины того, как вирусы влияют на окружающую среду в мире. во многом из-за их необычайного разнообразия и способности быстро развиваться.

Сообщества микробов трудно изучать в лабораторных условиях. Многие микробы сложно культивировать, а их естественная среда имеет гораздо больше особенностей, влияющих на их успех или неудачу, чем ученые могут воспроизвести в лаборатории.

Поэтому системные биологи, такие как я, часто секвенируют всю ДНК, присутствующую в образце – например, образец фекалий пациента — выделите последовательности вирусной ДНК, затем аннотируйте участки вирусного генома, кодирующие белки.

Эти заметки о расположении, структуре и других особенностях генов помогают исследователи понимают функции, которые вирусы могут выполнять в окружающей среде, и помогают идентифицировать различные типы вирусов.

Исследователи аннотируют вирусы, сопоставляя вирусные последовательности в образце с ранее аннотированными последовательностями, доступными в общедоступных базах данных вирусных генетических последовательностей.

Однако ученые идентифицируют вирусные последовательности в ДНК, собранной из окружающей среды, со скоростью, которая намного превосходит наши возможности аннотировать эти гены. Это означает, что исследователи публикуют данные о вирусах в микробных экосистемах, используя неприемлемо малую часть доступных данных.

Чтобы улучшить способность исследователей изучать вирусы по всему миру, я и моя команда разработали новый подход к аннотированию вирусов. последовательности с использованием искусственного интеллекта.

С помощью моделей белкового языка, похожих на большие языковые модели, такие как ChatGPT, но специфичных для белков, мы смогли классифицировать ранее невидимые вирусные последовательности. Это открывает перед исследователями возможность не только узнать больше о вирусах, но и решить биологические вопросы, на которые трудно ответить с помощью современных методов.

Аннотирование вирусов с помощью ИИ

Использование больших языковых моделей отношения между словами в больших наборах текстовых данных, чтобы обеспечить потенциальные ответы на вопросы, ответ на которые им не «обучен» явно.

Когда вы спрашиваете чат-бота «Какая столица Франции?» например, модель не ищет ответ в таблице столиц. Скорее, он использует обучение на огромных наборах данных документов и информации, чтобы вывести ответ: «Столица Франции — Париж».

Аналогично, модели белкового языка — это алгоритмы ИИ, которые обучены распознавать взаимосвязи между миллиарды белковых последовательностей из окружающей среды по всему миру. Благодаря этому обучению они, возможно, смогут сделать какие-то выводы о сущности вирусных белков и их функциях.

Мы задавались вопросом, смогут ли модели белкового языка ответить на этот вопрос: «Учитывая все аннотированные вирусные генетические последовательности, что это такое?» функция новой последовательности?»

В нашем доказательстве концепции мы обучили нейронные сети на ранее аннотированных последовательностях вирусных белков в предварительно обученных моделях белкового языка, а затем использовали их для прогнозирования аннотаций новых последовательностей вирусных белков.

Наш подход позволяет нам исследовать, что модель «видит» в конкретной вирусной последовательности, которая приводит к определенной аннотации. Это помогает идентифицировать интересующие белки-кандидаты либо на основе их конкретных функций, либо на основе того, как устроен их геном, отсеивая пространство поиска в обширных наборах данных.

Прохлорококк – один из многих видов морских бактерий, белки которых исследователи раньше не видели. (Энн Томпсон/Лаборатория Чисхолм, Массачусетский технологический институт, через Flickr)

Путем определения более отдаленно связанных функций вирусных генов, моделей белкового языка может дополнить существующие методы и дать новое понимание микробиологии.

Например, мы с моей командой смогли использовать нашу модель для открытия ранее нераспознанной интегразы – типа белка, который может перемещать генетическую информацию внутрь и наружу. клеток – у распространенных во всем мире морских пикоцианобактерий Prochromococcus и Synechococcus.

Примечательно, что эта интеграза может быть способна перемещать гены в эти популяции и из них. бактерий в океанах и позволяют этим микробам лучше адаптироваться к изменяющейся окружающей среде.

Наша языковая модель также выявила новый вирусный капсидный белок, широко распространенный в мировом океане. Мы создали первую картину того, как устроены его гены, показав, что он может содержать разные наборы генов, что, по нашему мнению, указывает на то, что этот вирус выполняет разные функции в окружающей среде.

Эти предварительные результаты представляют собой лишь две из тысяч аннотаций. наш подход обеспечил это.

Анализ неизвестного

Большинство из сотен тысяч вновь обнаруженных вирусов остаются неклассифицированными. Многие вирусные генетические последовательности соответствуют семействам белков, функция которых неизвестна или никогда ранее не наблюдалась. Наша работа показывает, что подобные модели белкового языка могут помочь изучить угрозу и перспективу многих неохарактеризованных вирусов нашей планеты.

Хотя наше исследование сосредоточено на вирусах в мировых океанах, улучшенное аннотирование вирусных белков имеет решающее значение для лучшего понимания. роль, которую вирусы играют в здоровье и заболеваниях человеческого организма.

Мы и другие исследователи предположили, что вирусная активность в микробиоме кишечника человека может изменяться во время болезни. Это означает, что вирусы могут помочь выявить стресс в микробных сообществах.

Однако наш подход также ограничен, поскольку требует высококачественных аннотаций. Исследователи разрабатывают новые модели белкового языка, которые включают в себя другие «задачи» в рамках их обучения, в частности, прогнозирование белковых структур для обнаружения похожих белков, чтобы сделать их более мощными.

Сделать все инструменты искусственного интеллекта доступными через принципы FAIR Data – данные, которые можно найти, которые доступны, совместимы и пригодны для повторного использования – могут помочь исследователям в целом реализовать потенциал этих новых способов аннотирования белковых последовательностей, ведущих к открытиям, которые приносят пользу здоровью человека.Разговор

Либуша Келли, доцент кафедры системной и вычислительной биологии, микробиологии и иммунологии, Медицинский колледж Альберта Эйнштейна

Эта статья переиздана из The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.

logo