Meta* представили TRIBE v2 — новую модель, которая объединяет видео, аудио и текст для предсказания активности человеческого мозга. Разработка предлагает новый подход к изучению работы мозга через симуляцию его реакции на различные стимулы.
TRIBE v2 (Tri-modal Brain Encoder) использует мультимодальную архитектуру, объединяющую данные из трёх источников: видео, аудио и текста. Модель обучалась на массиве данных, включающем более 1000 часов записей фМРТ 720 участников, и способна предсказывать активность мозга в 20 484 вершинах кортикальной поверхности («точки» на поверхности коры головного мозга, которые модель отслеживает для анализа активности) и 8 802 вокселах подкорковых структур («объёмные элементы» внутри более глубоких структур мозга, таких как таламус, базальные ганглии или гиппокамп). Иными словами, TRIBE v2 предсказывает активность мозга не только на поверхности коры, но и глубоко внутри мозга, охватывая 3D-структуру нейронной активности. Это делает её одной из самых точных моделей для анализа нейронной активности.
Ключевая особенность TRIBE v2 — использование предобученных нейросетей для обработки каждой модальности. Видео анализируется с помощью V-JEPA 2, аудио — через Wav2Vec-Bert, а текст — с использованием Llama 3.2. Эти данные объединяются трансформером с 1 миллиардом параметров, который моделирует временные зависимости и интеграцию модальностей. Такой подход позволяет модели предсказывать реакцию мозга даже в условиях отсутствия одной из модальностей благодаря механизму "modality dropout".