揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

来自香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究团队通过构建表示空间诊断工具,揭示了大模型“遗忘”的可逆性边界,发现真正的遗忘需结构上的大幅扰动,而非简单的输出下降。

研究指出,仅在输出层进行轻微更新虽然会降低准确率,但模型内部结构仍可保持完整,真正的遗忘伴随PCA主方向旋转、分布漂移和Fisher质量下降。

该研究提供了结构诊断工具,支持可控性遗忘设计,有助于实现“可控、局部、不可逆”的安全遗忘机制。

[原文链接]

上一篇:

下一篇:

微信