Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы.
Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky.
«Эта...