ДНК, содержащая основополагающую информацию, необходимую для поддержания жизни, долгое время была одной из величайших научных загадок. С момента открытия двойной спирали учёные пытались понять информацию, закодированную в ДНК. Теперь, благодаря GROVER, новой большой языковой модели, обученной на человеческой ДНК, исследователи могут попытаться расшифровать сложную информацию, скрытую в нашем геноме.
Разработанная командой из Биотехнологического центра (BIOTEC) Дрезденского технического университета, GROVER рассматривает человеческую ДНК как текст, изучая её правила и контекст, чтобы извлекать функциональную информацию о последовательностях ДНК. Этот новый инструмент, опубликованный в Nature Machine Intelligence, имеет потенциал для преобразования геномики и ускорения персонализированной медицины.
Большие языковые модели, такие как GPT, изменили наше понимание языка. Обученные исключительно на тексте, они развили способность использовать язык во многих контекстах. Команда BIOTEC решила применить аналогичный подход к ДНК.
«ДНК — это код жизни. Почему бы не относиться к нему как к языку?» — говорит доктор Анна Пётч, руководитель исследовательской группы в BIOTEC. Команда Поэтча обучила большую языковую модель на эталонном геноме человека. Полученный инструмент под названием GROVER или «Правила генома, полученные с помощью извлеченных представлений» может использоваться для извлечения биологического смысла из ДНК.