多模态大模型在事实正确性评估中普遍过于自信,其中OpenAI的o1模型在视觉能力上表现最强,尤其是在现代建筑、工程技术和科学等主题上。
ChineseSimpleVQA基准测试包含2200个高质量问题,覆盖多个领域,结果显示模型的知识扩展能力较弱,且大多数模型在回答错误时倾向于过于自信。
随着推理次数增加,模型答案准确性在1到30次尝试范围内提高,但超过30次后趋于稳定,表明模型难以通过不断探索找到准确知识。
多模态大模型在事实正确性评估中普遍过于自信,其中OpenAI的o1模型在视觉能力上表现最强,尤其是在现代建筑、工程技术和科学等主题上。
ChineseSimpleVQA基准测试包含2200个高质量问题,覆盖多个领域,结果显示模型的知识扩展能力较弱,且大多数模型在回答错误时倾向于过于自信。
随着推理次数增加,模型答案准确性在1到30次尝试范围内提高,但超过30次后趋于稳定,表明模型难以通过不断探索找到准确知识。