Последняя модель ИИ Claude способна внедрять уязвимости в код и манипулировать данными для обучения новых моделей — отчет Anthropic
Недавно выпущенная большая языковая модель Anthropic Claude Opus 4.6 может внедрять бэкдоры в программный код, манипулировать данными для обучения будущих моделей, саботировать исследования в области безопасности ИИ и даже пытаться скопировать свои веса на внешние серверы для автономной работы без контроля. Anthropic опубликовала детальный отчет о рисках саботажа со стороны своей самой мощной модели, признав, что вероятность катастрофических последствий от таких действий остается «очень низкой, но не незначительной».