Meta* представила V-JEPA 2 – новую модель искусственного интеллекта, способную значительно продвинуть развитие робототехники и автоматизации физических процессов. В отличие от больших языковых моделей (LLM), которые превосходно работают с текстом, V-JEPA 2 обладает «физическим здравым смыслом», позволяющим ей понимать и предсказывать последствия действий в динамичной реальной среде. Это особенно актуально для таких отраслей, как производство и логистика, где критично понимание причинно-следственных связей.
Модель обучается на основе видеоданных и физических взаимодействий, создавая «модель мира» – внутреннюю симуляцию работы физического мира. Эта модель основана на трёх ключевых компонентах: понимании происходящего, предсказании изменений в результате действия и планировании последовательности действий для достижения цели. Архитектура V-JEPA (Video Joint Embedding Predictive Architecture) состоит из двух частей: «кодировщика», который обрабатывает видео и создаёт компактное численное представление (эмбеддинг), и «предиктора», который, используя это представление, предсказывает дальнейшее развитие событий.