Генеральный директор OpenAI Сэм Альтман признал, что последние обновления GPT-4o сделали его «слишком подхалимским и раздражающим», а также объяснил, почему так вышло.
В последних обновлениях OpenAI начала использовать данные с кнопок «палец вверх» и «палец вниз» в ChatGPT в качестве «дополнительного сигнала вознаграждения». Однако OpenAI заявила, что это могло «ослабить влияние нашего основного сигнала вознаграждения, который сдерживал подхалимство». Компания отмечает, что отзывы пользователей «иногда могут благоприятствовать более приятным ответам», вероятно, усугубляя чрезмерно приятные высказывания чат-бота. Компания заявила, что память также может усиливать подхалимство.
OpenAI утверждает, что одна из «ключевых проблем» запуска связана с процессом тестирования. Хотя офлайн-оценки модели и A/B-тестирование дали положительные результаты, некоторые эксперты-тестировщики предположили, что обновление сделало чат-бот «слегка не таким». Несмотря на это, OpenAI все равно продолжила обновление.