该研究深入分析了大语言模型(LLMs)在决策场景中的常见失败模式,包括贪婪性、频率偏差和知-行差距,并提出通过强化学习微调(RLFT)来缓解这些缺陷。
研究发现,LLMs 由于过早采用贪婪策略导致动作覆盖率低,且存在频率偏差和知-行差距问题,这些缺陷在不同规模的模型中普遍存在。
实验表明,RLFT 能有效提升 LLM 的决策能力,增强探索性行为并缩小知-行差距。
该研究深入分析了大语言模型(LLMs)在决策场景中的常见失败模式,包括贪婪性、频率偏差和知-行差距,并提出通过强化学习微调(RLFT)来缓解这些缺陷。
研究发现,LLMs 由于过早采用贪婪策略导致动作覆盖率低,且存在频率偏差和知-行差距问题,这些缺陷在不同规模的模型中普遍存在。
实验表明,RLFT 能有效提升 LLM 的决策能力,增强探索性行为并缩小知-行差距。