ICLR 2025 | 大模型是否能做到有效“遗忘”?从梯度视角重新审视LLM反学习方法

大型语言模型(LLM)虽然在语言理解领域取得了显著进展,但也面临数据记忆和隐私泄露等问题。为解决这些问题,研究者提出了模型反学习(LLM Unlearning)技术,旨在在不重新训练的情况下删除模型中的不良知识。香港浸会大学与康奈尔大学合作提出了一种名为梯度效应(G-effect)的分析框架,从梯度视角系统地分析了各种反学习方法的性能变化及其内在机制,并提出了一系列改进方法,显著提升了LLM反学习的有效性。

[原文链接]

上一篇:

下一篇:

微信