OpenAI представила свои новые модели искусственного интеллекта o3 и o4-mini, ориентированные на «рассуждения» — способность решать задачи пошагово. Однако, как сообщает TechCrunch, эти модели демонстрируют повышенный уровень «галлюцинаций» — генерации ложной или выдуманной информации, выдаваемой за факт.
Тесты показали, что o3 ошибается в 33% ответов на вопросы о людях (бенчмарк PersonQA), что вдвое выше, чем у предыдущих моделей o1 (16%) и o3-mini (14,8%). Модель o4-mini оказалась еще менее точной, «галлюцинируя» в 48% случаев.