谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

该研究深入分析了大语言模型（LLMs）在决策场景中的常见失败模式，包括贪婪性、频率偏差和知-行差距，并提出通过强化学习微调（RLFT）来缓解这些缺陷。

研究发现，LLMs 由于过早采用贪婪策略导致动作覆盖率低，且存在频率偏差和知-行差距问题，这些缺陷在不同规模的模型中普遍存在。

实验表明，RLFT 能有效提升 LLM 的决策能力，增强探索性行为并缩小知-行差距。

2025年5月6日上午6:59 分享到:

上一篇：AI制药十年沉浮：管线折戟、资本退潮与黎明前的坚守

下一篇：这个华人小伙，搞AI头像，年入1000万美元