Публичные новости

OpenAI и Anthropic показали, насколько GPT-5 по качеству работы сравним с профессионалами в разных сферах

OpenAI представила результаты нового теста GDPval, который впервые попытался оценить, насколько возможности ИИ-моделей близки к профессиональному уровню в экономически значимых профессиях. Тест охватил 9 ведущих отраслей экономики США и 44 профессии — от инженеров и юристов до медсестёр и журналистов.

Суть GDPval в том, что опытные специалисты сравнивали отчёты и рекомендации, созданные человеком и ИИ, выбирая более качественные. Для специализированной версии GPT-5-high модель была признана равной или даже лучше экспертов в 40,6% случаев. Её конкурент Anthropic Claude Opus 4.1 занял 49% по похожему критерию, чему помогало более выразительное оформление графиков, хотя и не всегда высокое качество наполнения.

Иллюстрация: Sora

Эксперты от OpenAI подчёркивают, что результаты включают только ограниченный набор задач, поэтому говорить о полном замещении профессий пока что рано. Тем не менее, наблюдается тенденция растущей конкурентоспособности ИИ в сложных рабочих процессах, что позволит специалистам сосредотачиваться на творческих и стратегически важных задачах, делегируя рутинную часть в пользу автоматизации и моделей.

OpenAI планирует расширять тестирование, чтобы включать больше профессий и интерактивных случаев из реальной жизни.

Original: iXBT.com: новости

Средний рейтинг 0

Комментарии:

Здесь нет комментариев.
Здесь пока нет ни одного комментария, вы можете стать первым!

16+ Сайт может содержать контент, не предназначенный для лиц младше 16 лет