用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

首个突破30AP的纯多模态开源LLM——Perception-R1(PR1),由华中科技大学、北京邮电大学等高校研究团队推出,通过基于规则的强化学习显著提升了视觉感知能力。

PR1采用Group Relative Policy Optimization(GRPO)技术优化感知策略,通过多次尝试和相对比较来提高模型的输出质量,实验结果显示其在视觉定位、视觉计数和OCR等任务上表现出色。

该研究团队希望其工作能为后续研究提供一个强大的baseline,推动多模态大语言模型在视觉感知领域的进一步发展。

[原文链接]

上一篇:

下一篇:

微信