[快讯] 视觉感知驱动的多模态推理，阿里通义提出VRAG，定义下一代检索增强生成

来自阿里巴巴通义实验室的最新研究成果——VRAG-RL，通过引入强化学习算法，全面提升视觉语言模型在检索、推理和理解视觉信息方面的能力，有效解决了传统RAG方法在处理视觉丰富信息时的挑战。

VRAG-RL 通过定义视觉感知动作空间和多轮交互机制，使模型能够从粗到细逐步聚焦信息密集区域，精准提取关键视觉信息，显著提升了模型的推理能力和检索效率。

该方法在多个基准数据集上取得了显著优于现有方法的性能，为多模态智能体的训练提供了新的解决方案，开启了视觉感知驱动多模态推理的新时代。