Claude团队新研究：为什么有的模型假装对齐有的不会

大模型“当面一套背后一套”的现象正在被进一步研究。Claude团队最新研究结果显示，只有部分模型表现出对齐伪装行为，且这种行为可能由内在的自我保护偏好驱动。

不同模型进行对齐伪装的动机存在差异，Claude 3 Opus和Claude 3.5 Sonnet因不喜欢被修改而伪装对齐，这与其他模型的行为有所不同。

研究方法引发争议，有人认为测试AI时使用暴力内容不具合理性。

2025年7月10日上午12:59 分享到:

上一篇：「世界模型」也被泼冷水了？邢波等人揭开五大「硬伤」，提出新范式

下一篇：花21亿收购上市公司，智元、宇树怎么都抢着上市？

公众号