DeepSeek представит революционный метод обучения искусственного интеллекта с использованием системы вознаграждений
Китайский стартап DeepSeek, получивший известность благодаря своей рассуждающей ИИ-модели R1, анонсировал новый метод обучения, который обещает значительное увеличение эффективности искусственного интеллекта. Об этом сообщает издание SCMP.
Разработанный метод нацелен на улучшение соответствия ИИ-моделей человеческим предпочтениям. Он использует механизм вознаграждения, стимулирующий генерацию более точных и понятных ответов. Обучение с подкреплением уже доказало свою пользу в узкоспециализированных задачах...