В Microsoft научились портить ИИ-модели одним запросом
Всего один относительно мягкий запрос на этапе обучения с подкреплением способен изменить поведение модели искусственного интеллекта и позволить ей систематически генерировать недопустимый контент. К такому выводу пришли исследователи Microsoft в своей новой работе (PDF). Источник изображения: Igor Omilaev / unsplash.com