DeepSeek усилила «мышление» ИИ с помощью нового подхода
В сотрудничестве с исследователями из Университета Цинхуа компания DeepSeek разработала новую методику, сочетающую генеративное моделирование вознаграждений (Generative Reward Modeling, GRM) и самообучающуюся систему критической настройки (self-principled critique tuning). Этот двойной подход позволяет большим языковым моделям быстрее и точнее отвечать на общие запросы.
Полученные GRM-модели превзошли существующие методы. Исследователи отметили, что они «показали конкурентоспособные...