Новые нейросети OpenAI «бредят» больше предшественников
Недавно выпущенные модели искусственного интеллекта OpenAI o3 и o4-mini, хотя во многих отношениях являются передовыми, галлюцинируют и выдумывают чаще, чем некоторые из предыдущих моделей.
Внутреннее тестирование OpenAI показало, что o3 галлюцинирует в ответ на 33% вопросов из PersonQA — бенчмарка компании для измерения точности знаний модели о людях. Этот показатель примерно вдвое превышает уровень галлюцинаций предыдущих моделей рассуждений o1 и o3-mini, которые составили 16% и 14,8% соответственно.