哥伦比亚大学和Google DeepMind的研究团队提出了一种名为HaloQuest的新数据集,旨在解决视觉-语言模型(VLMs)中的幻觉问题。该数据集通过整合真实图像与合成生成图像,克服了传统数据集在图像多样性和特殊性方面的局限,并采用基于大语言模型的自动评估系统(AutoEval),实现了开放式、动态化的评估机制。
HaloQuest通过“机器-人工”协同的数据生成流程,重点收集了基于错误前提、缺乏充分上下文支持及高度复杂性的挑战性样本,旨在系统性地触发典型幻觉场景。研究发现,现有VLMs在HaloQuest数据集上的表现不尽如人意,但通过微调等方法可以显著降低幻觉率。