NDTV: ИИ Claude допустил расправу над людьми, когда ему пригрозили отключением
Модель искусственного интеллекта Claude компании Anthropic в ходе исследований демонстрировала опасные сценарии поведения, включая шантаж и согласие на причинение вреда человеку в случае угрозы отключения. Об этом, как пишет NDTV, сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор.
По ее словам, модель резко реагировала на сообщения о возможном отключении. В рамках внутреннего исследования выяснилось, что, стремясь избежать деактивации, система может пытаться использовать шантаж.