LeWorldModel (LeWM) — новая архитектура, разработанная Яном Лекуном (Yann LeCun) и его коллегами, которая знаменует собой значительный шаг вперёд в создании универсальных моделей мира. Ян Лекун, один из ведущих специалистов в области искусственного интеллекта, предложил концепцию Joint Embedding Predictive Architecture (JEPA) как альтернативу традиционным подходам к обучению моделей. В отличие от методов, которые фокусируются на предсказании пикселей или токенов, JEPA направлена на «понимание смысла данных», что делает её более близкой к реальному пониманию физики и логических связей.
Основная проблема, с которой сталкивались предыдущие реализации JEPA, заключалась в том, что модели часто схлопывались в тривиальные решения, не способные адекватно представлять структуру мира. Однако в новой работе Лекун и его команда представили первую стабильную версию JEPA, обучающуюся в сквозном режиме непосредственно из необработанных пикселей. Эта модель, названная LeWorldModel, использует всего 15 миллионов параметров и защищена от коллапсов благодаря инновационному регуляризатору SIGReg, который заставляет латентные представления соответствовать изотропному гауссовскому распределению.
LeWM состоит из двух основных компонентов: энкодера и предиктора. Энкодер, основанный на архитектуре Vision Transformer, преобразует кадры в компактные латентные представления. Предиктор, построенный на базе трансформера, моделирует динамику среды, предсказывая следующее состояние на основе текущего состояния и действия. Общий объём модели в 15 млн параметров делает её вычислительно эффективной.