Группа исследователей из независимого некоммерческого научно-исследовательского института Arc Institute, Nvidia, Стэнфордского университета и Калифорнийского университета разработала ИИ-модель Evo 2, способную анализировать и проектировать генетические последовательности для всех доменов жизни.
Модель обучена на ДНК более 128 000 видов, включая бактерии, археи, вирусы, растения, животных и человека. Цель работы — создать универсальный инструмент для выявления закономерностей, диагностики заболеваний и проектирования новых геномов.
В основе Evo 2 лежит архитектура StripedHyena 2, позволяющая обрабатывать последовательности длиной до миллиона нуклеотидов. Для обучения использовались данные объёмом 9,3 трлн нуклеотидов, что в 30 раз превышает объём предыдущей версии Evo 1. Модель способна выявлять паттерны, которые ранее были недоступны экспериментальным методам, и точно определять мутации, связанные с заболеваниями.