Исследователи Anthropic выяснили, что формирует "характер ИИ"
На этапе предварительного обучения языковые модели знакомятся с разными ролями — от философов и ученых до злодеев и вымышленных персонажей. Однако после дообучения разработчики «выдвигают на сцену» одну конкретную персону — Ассистента, в образе которого модель обычно и взаимодействует с человеком. При этом сами создатели признают, что не до конца понимают, какие именно черты в итоге формируют этот образ.
Поведение ассистента может быть нестабильным. В отдельных ситуациях модели отклоняются...