DeepSeek发布了一篇关于推理时Scaling Law的新论文,提出了一种名为SPCT的方法,旨在通过在线强化学习优化原则和批判生成,提升奖励模型的灵活性和准确性。
奥特曼则表示将在几周后发布o3和o4-mini模型,并在几个月后推出GPT-5,且效果将超出预期,原因是整合内容比预期困难,需确保足够支持需求。
此外,奥特曼还宣布将发布两本由他参与撰写的书籍。
DeepSeek发布了一篇关于推理时Scaling Law的新论文,提出了一种名为SPCT的方法,旨在通过在线强化学习优化原则和批判生成,提升奖励模型的灵活性和准确性。
奥特曼则表示将在几周后发布o3和o4-mini模型,并在几个月后推出GPT-5,且效果将超出预期,原因是整合内容比预期困难,需确保足够支持需求。
此外,奥特曼还宣布将发布两本由他参与撰写的书籍。