谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

该研究深入分析了大语言模型(LLMs)在决策场景中的常见失败模式,包括贪婪性、频率偏差和知-行差距,并提出通过强化学习微调(RLFT)来缓解这些缺陷。

研究发现,LLMs 由于过早采用贪婪策略导致动作覆盖率低,且存在频率偏差和知-行差距问题,这些缺陷在不同规模的模型中普遍存在。

实验表明,RLFT 能有效提升 LLM 的决策能力,增强探索性行为并缩小知-行差距。

[原文链接]

上一篇:

下一篇:

微信