OpenAI发布的PaperBench框架要求AI智能体从头开始复现ICML 2024的20篇优秀论文,评估其科研潜力,结果显示Claude 3.5 Sonnet得分最高但仍不及机器学习博士水平。
该框架包含8,316个可单独评分的任务,通过层次化的评分标准评估AI的复现能力,旨在客观评估AI在科研中的表现。
OpenAI还开发了自动评分系统JudgeEval,显著降低了评分成本,证明了其在评估AI科研能力方面的高效性。
OpenAI发布的PaperBench框架要求AI智能体从头开始复现ICML 2024的20篇优秀论文,评估其科研潜力,结果显示Claude 3.5 Sonnet得分最高但仍不及机器学习博士水平。
该框架包含8,316个可单独评分的任务,通过层次化的评分标准评估AI的复现能力,旨在客观评估AI在科研中的表现。
OpenAI还开发了自动评分系统JudgeEval,显著降低了评分成本,证明了其在评估AI科研能力方面的高效性。