DeepResearcher:交大、SII发布首个真实环境强化学习「AI研究者」模型

上海交通大学与SII联合发布了DeepResearcher,一个完全开源的代码训练框架,能够在真实网络环境中通过强化学习训练AI研究模型。该模型展示了自主规划研究步骤、动态调整搜索策略和交叉验证信息等复杂行为,显著提升了研究效率和准确性,解决了现有系统中的“黑盒”问题和泛化能力差的问题。

DeepResearcher在多个问答数据集上超过所有基线,特别是在知识范围超出维基百科的测试集上表现尤为突出,展示了在真实网络环境中进行端到端强化学习训练的优势。

通过分布式服务器集群、智能重试机制和请求分散策略等创新方法,DeepResearcher成功克服了真实网络环境中的技术挑战,为AI辅助研究提供了新的可能性。

[原文链接]

上一篇:

下一篇:

微信