北京时间2月18日,马斯克与xAI团队发布了Grok3最新版本,宣称其在数学、科学与编程基准测试上超越了主流模型,并将用于SpaceX火星任务计算,但实际测试中Grok3在基础问题上表现不佳,可靠性受到质疑。
尽管Grok3在官方PPT中显示「遥遥领先」,但实际差距仅1-2%,且存在数据展示技巧。此外,Grok3的训练成本高昂,但其性能提升的边际效应已显现,预示着大模型训练可能面临「天花板」。
马斯克表示Grok3仍处于测试阶段,未来几个月将推出完整版,而OpenAI等公司正面临数据枯竭的问题,预示着AI训练将转向更具自主性的下一代模型。