多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

多模态大模型在事实正确性评估中普遍过于自信,其中OpenAI的o1模型在视觉能力上表现最强,尤其是在现代建筑、工程技术和科学等主题上。

ChineseSimpleVQA基准测试包含2200个高质量问题,覆盖多个领域,结果显示模型的知识扩展能力较弱,且大多数模型在回答错误时倾向于过于自信。

随着推理次数增加,模型答案准确性在1到30次尝试范围内提高,但超过30次后趋于稳定,表明模型难以通过不断探索找到准确知识。

[原文链接]

上一篇:

下一篇:

微信