7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

香港大学和华为诺亚方舟实验室发布了一项名为Dream 7B的扩散推理模型,该模型在通用能力、数学推理和编程任务上表现出色,甚至在某些情况下优于最新的自回归模型,展示了扩散模型在自然语言处理领域的潜力。

研究团队认为扩散模型在生成文本方面有天然优势,并计划进一步探索扩散语言模型的后训练方案,尽管自回归模型目前仍是主流。

扩散模型通过双向上下文建模和迭代优化过程,克服了自回归模型的一些局限性,如复杂推理能力不足和长期规划困难,为下一代语言模型的发展提供了新的方向。

[原文链接]

上一篇:

下一篇:

微信