Компания OpenAI подтвердила, что её новая языковая модель GPT-4.5 генерирует недостоверные ответы в 37% случаев, согласно внутреннему инструменту оценки фактологичности SimpleQA. Эти данные, озвученные в официальном релизе, вызвали дискуссию о надёжности современных алгоритмов ИИ.
Несмотря на заявления о прогрессе — предыдущие версии GPT-4o и o3-mini демонстрировали 61,8% и 80,3% галлюцинаций соответственно, — даже «лучшие модели» всё ещё остаются неточными.