来自上海交通大学、SII 和 GAIR 的研究团队提出了一种名为 ToRL(Tool-Integrated Reinforcement Learning)的新框架,允许大模型直接从基座模型开始通过强化学习自主探索最优工具使用策略,显著提升了数学推理任务的性能。
实验结果显示,ToRL 在 AIME24 等基准上的准确率分别比不使用工具的基线 RL 模型和现有工具集成大模型提高了 14% 和 17%,特别是在 AIME24 上达到了 43.3% 的准确率。
ToRL 框架通过直接从基座模型出发,避免了传统工具集成推理方法中预设的思维枷锁,展示了大模型可能早已具备强大的工具使用能力,只需更开放的学习方式去释放。