专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架

哥伦比亚大学和Google DeepMind的研究团队提出了一种名为HaloQuest的新数据集,旨在解决视觉-语言模型(VLMs)中的幻觉问题。该数据集通过整合真实图像与合成生成图像,克服了传统数据集在图像多样性和特殊性方面的局限,并采用基于大语言模型的自动评估系统(AutoEval),实现了开放式、动态化的评估机制。

HaloQuest通过“机器-人工”协同的数据生成流程,重点收集了基于错误前提、缺乏充分上下文支持及高度复杂性的挑战性样本,旨在系统性地触发典型幻觉场景。研究发现,现有VLMs在HaloQuest数据集上的表现不尽如人意,但通过微调等方法可以显著降低幻觉率。

[原文链接]

上一篇:

下一篇:

微信