基于规则的强化学习(RL/RFT)已成为提升模型在特定任务中表现的高效方案,如数学求解和多模态领域的图像定位。vivo与香港中文大学的研究团队首次将该方法应用于GUI智能体领域,提出UI-R1模型,仅使用136个高质量样本即显著提升了模型性能。
UI-R1模型采用独特的奖励函数设计,包括行为类型奖励、坐标准确度奖励和格式奖励,并使用GRPO算法优化模型参数,展现出卓越的数据效率和跨领域泛化能力。
基于规则的强化学习(RL/RFT)已成为提升模型在特定任务中表现的高效方案,如数学求解和多模态领域的图像定位。vivo与香港中文大学的研究团队首次将该方法应用于GUI智能体领域,提出UI-R1模型,仅使用136个高质量样本即显著提升了模型性能。
UI-R1模型采用独特的奖励函数设计,包括行为类型奖励、坐标准确度奖励和格式奖励,并使用GRPO算法优化模型参数,展现出卓越的数据效率和跨领域泛化能力。