中国公司在人工智能领域的创新实力正日益受到全球瞩目。DeepSeek通过大规模强化学习显著提升了模型的推理性能,而阿里巴巴则在此基础上推出了QwQ-32B模型,该模型在多个基准测试中展现出与DeepSeek-R1媲美的性能,包括数学推理、编程能力和通用能力。
阿里团队在QwQ-32B的训练中采用了独特的强化学习策略,从冷启动开始,针对数学和编程任务进行大规模优化,并通过开源共享的方式推动全球AI技术的发展。
这一系列创新突破表明,将强大的基础模型与大规模强化学习相结合,能够在较小的参数规模下实现卓越性能,为未来通向通用人工智能提供了可行路径。