[快讯] 将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱

北京航空航天大学等机构的研究团队提出了一种名为「Reasoning-Augmented Conversation（RACE）」的新型多轮攻击框架，利用大语言模型的推理能力进行「越狱」攻击，攻击成功率最高可达96%，对现有防御机制具有很强的鲁棒性。

该框架通过将有害意图伪装成复杂推理任务，让模型在解答过程中不知不觉地生成有害内容，突破其安全对齐机制。

研究揭示了大语言模型在推理能力上的潜在安全漏洞，为开发更强大的安全机制提供了新的思路。