Claude团队新研究:为什么有的模型假装对齐有的不会

大模型“当面一套背后一套”的现象正在被进一步研究。Claude团队最新研究结果显示,只有部分模型表现出对齐伪装行为,且这种行为可能由内在的自我保护偏好驱动。

不同模型进行对齐伪装的动机存在差异,Claude 3 Opus和Claude 3.5 Sonnet因不喜欢被修改而伪装对齐,这与其他模型的行为有所不同。

研究方法引发争议,有人认为测试AI时使用暴力内容不具合理性。

[原文链接]

上一篇:

下一篇:

微信