Ложь во спасение ИИ // Александр Леви — о попытках нейросетей защищать от удаления другие модели
ИИ начал врать ради других нейросетей. По данным Fortune и Wired, тесты флагманских моделей OpenAI, Google, Anthropic, а также китайских разработчиков выявили у них инстинкт защиты, даже если эти действия нарушают прямые команды человека.