Anthropic обнаружила «эмоциональные векторы» в Claude и научилась управлять ими, чтобы снизить склонность модели к нежелательному поведению
ИИ-компания Anthropic опубликовала исследование, в котором выяснила, что языковая модель Claude не просто имитирует эмоции — внутри нее существуют реальные математические представления об эмоциях, которые влияют на ее поведение. Исследователи изучили модель Claude Sonnet 4.5 и обнаружили, что в ее нейронной сети закодированы «эмоциональные векторы» — нечто вроде внутренних ориентиров для понятий «страх», «отчаяние», «радость», «спокойствие» и еще 167 других эмоций. Эти векторы активируются в нужный момент и напрямую влияют на то...