Claude 3.5首战复现21%顶会论文,人类博士无法取代,OpenAI:AI全是草台班子

OpenAI发布的PaperBench框架要求AI智能体从头开始复现ICML 2024的20篇优秀论文,评估其科研潜力,结果显示Claude 3.5 Sonnet得分最高但仍不及机器学习博士水平。

该框架包含8,316个可单独评分的任务,通过层次化的评分标准评估AI的复现能力,旨在客观评估AI在科研中的表现。

OpenAI还开发了自动评分系统JudgeEval,显著降低了评分成本,证明了其在评估AI科研能力方面的高效性。

[原文链接]

上一篇:

下一篇:

微信