OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了

DeepEyes 是由小红书团队与西安交通大学联合开发的多模态深度思考模型,它能够通过端到端的强化学习在无需监督微调的情况下,实现类似 OpenAI o3 的“用图像思考”能力,并已开源相关技术细节。

DeepEyes 的推理流程包括全局视觉分析、图像裁剪放大和细节推理识别三个步骤,展示了其强大的视觉上下文感知能力,并在视觉搜索任务中取得了优异的成绩。

该模型通过基于 outcome-based 的端到端强化学习策略,有效激发了大模型的工具使用能力,展示了与人类类似的学习模式,并在多个测试集上表现出色。

[原文链接]

上一篇:

下一篇:

微信