OpenAI揭秘GPT-4.5训练:10万块GPU,几乎全员上阵,出现“灾难性问题”

OpenAI联合创始人兼CEO萨姆·阿尔特曼与GPT-4.5的三位核心技术人员进行了一场对谈,首次披露了GPT-4.5研发过程中耗时严重超期、计算集群频繁故障等问题,但同时也展示了技术栈的显著改进,使得如今仅需5-10人即可复刻出GPT-4级别的大模型。

阿尔特曼指出,要实现下一个10倍乃至百倍的性能提升,关键在于数据效率,即开发出能够利用更多算力从同样数量的数据中学到更多知识的方法。同时,系统正从单集群转向多集群架构,未来训练可能涉及1000万块GPU规模的协作学习。

对谈还涉及数据长尾效应、机器学习与系统团队深度协同设计模式等话题,展现了GPT-4.5研发期间OpenAI的思考与收获。

[原文链接]

上一篇:

下一篇:

微信