GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板

浙江大学与上海人工智能实验室联合发布了全球首个面向真实场景的多模态创造力评测基准——Creation-MMBench,旨在科学量化多模态大模型的“视觉创意智能”。该基准涵盖四大任务类别、51项细粒度任务,通过765个高难度测试案例全面评估模型的创意力。

实验结果显示,Gemini-2.0-Pro在多模态创意性写作上表现优异,特别是在日常功能性写作任务中整合图像生成内容的能力较强;而主打创意写作的GPT-4.5在整体表现上却弱于Gemini-pro和GPT-4o,但在多模态内容理解及创作任务上表现突出。

[原文链接]

上一篇:

下一篇:

微信