Добавить новость

Обучая ИИ быть «злым», она становится лишь добрее: методика Anthropic

Исследователи из компании Anthropic нашли неожиданный способ сделать больших языковых моделей (LLM) безопаснее. Вместо того чтобы подавлять «вредные» черты, такие как льстивость или агрессивность, они предложили включать их прямо во время обучения.

Обычно нежелательное поведение в LLM, как, например, чрезмерная лесть или выдумывание фактов, связано с определёнными «паттернами» активности в модели. Исследователи смогли точно определить такие паттерны и показали, что можно их отслеживать — а значит, и предотвращать.

Губернаторы России



Заголовки
Заголовки
Moscow.media
Ria.city

Новости России




Rss.plus

Музыкальные новости


Новости тенниса







Новости спорта