[快讯] 大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩

大模型竞技场的可信度再次受到质疑。一篇名为《排行榜幻觉》的论文指出，少数大厂可以私下测试多个模型版本并只公开最佳表现，导致排名膨胀；专有模型获得的用户反馈数据显著多于开源模型；使用竞技场数据训练可大幅提升模型性能；许多模型被“静默弃用”，影响排名可靠性。

官方回应称，LMArena模拟存在缺陷，数据不实，性能提升说法误导性，并强调政策透明，淘汰模型标准公开。但研究团队建议禁止提交后撤回分数，限制非正式模型数量，公平应用模型弃用政策等。

这一事件给AI社区敲响警钟，或许不应仅依赖单一榜单评估大模型。