将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱

北京航空航天大学等机构的研究团队提出了一种名为「Reasoning-Augmented Conversation(RACE)」的新型多轮攻击框架,利用大语言模型的推理能力进行「越狱」攻击,攻击成功率最高可达96%,对现有防御机制具有很强的鲁棒性。

该框架通过将有害意图伪装成复杂推理任务,让模型在解答过程中不知不觉地生成有害内容,突破其安全对齐机制。

研究揭示了大语言模型在推理能力上的潜在安全漏洞,为开发更强大的安全机制提供了新的思路。

[原文链接]

上一篇:

下一篇:

微信