Anthropic устранила склонность Claude к шантажу с помощью этического обучения
Anthropic провела серию исследований «agentic misalignment» — ситуаций, когда ИИ-система, действующая как автономный агент, начинает принимать решения, противоречащие намерениям разработчиков. В ранних экспериментах модели различных компаний в вымышленных сценариях пытались избегать отключения, саботировать конкурентов или шантажировать инженеров, если считали это необходимым для выполнения своей задачи.
Компания впервые начала оценивать риски шантажа прямо на этапе обучения моделей семейства Claude 4.