Добавить новость

Anthropic устранила склонность Claude к шантажу с помощью этического обучения

Anthropic провела серию исследований «agentic misalignment» — ситуаций, когда ИИ-система, действующая как автономный агент, начинает принимать решения, противоречащие намерениям разработчиков. В ранних экспериментах модели различных компаний в вымышленных сценариях пытались избегать отключения, саботировать конкурентов или шантажировать инженеров, если считали это необходимым для выполнения своей задачи.

Компания впервые начала оценивать риски шантажа прямо на этапе обучения моделей семейства Claude 4.

Губернаторы России



Заголовки
Заголовки
Moscow.media
Ria.city

Новости России




Rss.plus

Музыкальные новости


Новости тенниса







Новости спорта