首个突破30AP的纯多模态开源LLM——Perception-R1(PR1),由华中科技大学、北京邮电大学等高校研究团队推出,通过基于规则的强化学习显著提升了视觉感知能力。
PR1采用Group Relative Policy Optimization(GRPO)技术优化感知策略,通过多次尝试和相对比较来提高模型的输出质量,实验结果显示其在视觉定位、视觉计数和OCR等任务上表现出色。
该研究团队希望其工作能为后续研究提供一个强大的baseline,推动多模态大语言模型在视觉感知领域的进一步发展。