[快讯] CVPR 2025 Oral | 多模态交互新基准OpenING，新版GPT-4o杀疯了？

上海人工智能实验室提出了首个面向开放式图文交错生成任务的综合评测基准 OpenING，旨在解决现有评测基准存在的规模小、主题多样性不足等问题，通过构建涵盖23个现实领域的图文交错生成综合评测基准，为下一代多模态大语言模型的研发提供了重要指导。

OpenING 采用自主研发的评估模型 IntJudge，通过人机协作标注方法和参考增强生成技术，提高了评测的公平性和准确性，其与人类判断的一致率达到82.42%，显著高于基于 GPT 的评测方法。

基于 OpenING 的评测结果显示，当前主流多模态模型在图文一致性与视觉质量方面表现突出，但与人类生成的内容相比仍存在一定差距，特别是在图像生成质量和真实性方面。