Новая модель OpenAI o1 способна решать сложные задачи, требующие рассуждений
12 сентября компания OpenAI представила новую большую языковая модель OpenAI o1, обученную с помощью метода «обучение с подкреплением» для выполнения сложных рассуждений. Эта модель способна создавать длинную «цепочку мыслей» прежде чем ответить пользователю, что делает её более продвинутой, чем предыдущие модели.
OpenAI o1 занимает 89-й процентиль в соревновательном программировании (Codeforces) и входит в число 500 лучших «студентов» США в отборочном туре на математическую олимпиаду США (AIME). Кроме того, она превосходит точность уровня доктора философии в тесте задач по физике, биологии и химии (GPQA).
Компания OpenAI выпустила раннюю версию модели OpenAI o1-preview для использования в ChatGPT и для пользователей API. Эта модель прошла тестирование на различных экзаменах и бенчмарках машинного обучения, показав значительное улучшение рассуждений по сравнению с предыдущей моделью GPT-4o.

Цепочка рассуждений предоставляет новые возможности для согласования и безопасности. Компания обнаружила, что интеграция своих политик для поведения модели в «цепочку мыслей» является эффективным способом надёжного обучения человеческим ценностям и принципам. Обучая модель своим правилам безопасности и тому, как рассуждать о них в контексте, компания обнаружила доказательства того, что способность рассуждений напрямую увеличивает надёжность модели.
Для стресс-тестирования своих улучшений компания OpenAI провела ряд тестов безопасности и red-teaming [методология, используемая для тестирования и оценки безопасности, основная идея которой заключается в том, чтобы создать команду, которая будет играть роль «атакующей стороны», чтобы выявить уязвимости и слабые места в системе или стратегии] перед развёртыванием в соответствии со своей структурой готовности. Результаты показали, что цепочка рассуждений способствовала улучшению возможностей в их оценках.
Компания OpenAI считает, что скрытая цепочка мыслей представляет собой уникальную возможность для мониторинга моделей. Если она верна и понятна, то позволяет понимать «мыслительный процесс» модели. Однако для того, чтобы это работало, модель должна иметь свободу выражать свои мысли в неизменённой форме, поэтому OpenAI не может обучать какое-либо соответствие политике или предпочтениям пользователя в цепочке мыслей.
Взвесив множество факторов, включая пользовательский опыт, конкурентное преимущество и возможность продолжить мониторинг цепочки рассуждений, OpenAI решила не показывать пользователям необработанные цепочки. Компания признаёт, что это решение имеет недостатки. Чтобы частично компенсировать это, OpenAI обучает модель воспроизводить любые полезные идеи из цепочки мыслей в ответе. Для серии моделей o1 OpenAI показывает сгенерированное моделью резюме «цепочки мыслей».
OpenAI o1 представляет собой значительный шаг вперёд в области искусственного интеллекта. Эта модель способна решать сложные задачи, требующие рассуждений, и показывает улучшение производительности по сравнению с предыдущими моделями. Компания OpenAI планирует продолжить развитие этой модели и выпустить улучшенные версии.

_large.jpg)





