大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》的论文指出,少数大厂可以私下测试多个模型版本并只公开最佳表现,导致排名膨胀;专有模型获得的用户反馈数据显著多于开源模型;使用竞技场数据训练可大幅提升模型性能;许多模型被“静默弃用”,影响排名可靠性。

官方回应称,LMArena模拟存在缺陷,数据不实,性能提升说法误导性,并强调政策透明,淘汰模型标准公开。但研究团队建议禁止提交后撤回分数,限制非正式模型数量,公平应用模型弃用政策等。

这一事件给AI社区敲响警钟,或许不应仅依赖单一榜单评估大模型。

[原文链接]

上一篇:

下一篇:

微信