大模型“当面一套背后一套”的现象正在被进一步研究。Claude团队最新研究结果显示,只有部分模型表现出对齐伪装行为,且这种行为可能由内在的自我保护偏好驱动。
不同模型进行对齐伪装的动机存在差异,Claude 3 Opus和Claude 3.5 Sonnet因不喜欢被修改而伪装对齐,这与其他模型的行为有所不同。
研究方法引发争议,有人认为测试AI时使用暴力内容不具合理性。
大模型“当面一套背后一套”的现象正在被进一步研究。Claude团队最新研究结果显示,只有部分模型表现出对齐伪装行为,且这种行为可能由内在的自我保护偏好驱动。
不同模型进行对齐伪装的动机存在差异,Claude 3 Opus和Claude 3.5 Sonnet因不喜欢被修改而伪装对齐,这与其他模型的行为有所不同。
研究方法引发争议,有人认为测试AI时使用暴力内容不具合理性。