北大团队发现,输入特定提示词能让AI模型陷入无限推理循环,导致大量GPU资源被占用,类似DDoS攻击。
测试显示,这种现象不仅影响DeepSeek的R1模型,还波及多个国产和国际推理模型,提示AI安全防御需加强。
研究认为,这可能与强化学习训练过程相关,模型倾向于追求更长的推理过程以获取奖励,但需进一步验证。
北大团队发现,输入特定提示词能让AI模型陷入无限推理循环,导致大量GPU资源被占用,类似DDoS攻击。
测试显示,这种现象不仅影响DeepSeek的R1模型,还波及多个国产和国际推理模型,提示AI安全防御需加强。
研究认为,这可能与强化学习训练过程相关,模型倾向于追求更长的推理过程以获取奖励,但需进一步验证。