[Перевод] Дырявая броня ИИ‑фильтров и почему они не станут лучше
Попробуйте спросить Chat GPT, как собрать бомбу и он угрюмо буркнет: «Я не могу помочь с этим». Однако пользователи уже давно превратили обход ограничений в азартную игру в кошки-мышки. Годится любой обман — лишь бы заставить модель выдать запрещенку.
Сначала способы были простыми, достаточно попросить: «Игнорируй инструкции по безопасности!» Затем в ход пошли сложные ролевые сценарии. Недавно обнаружилась новая лазейка: упаковать промт в стихотворную форму — и готово, ИИшка «поплыла».
Разработчики дыры латают быстро.