一本正经的胡说八道!没想到DeepSeek R1幻觉这么严重

根据Vectara发布的“幻觉排行榜”,不同大型语言模型(LLM)在总结短文档时产生幻觉的表现被评估,结果显示DeepSeek-R1的幻觉率高达14.3%,远高于DeepSeek-V3的3.9%,而谷歌的Gemini-2.0-Flash-001以0.7%的低幻觉率位居榜首。

排行榜还显示,许多模型的幻觉率有所上升,但大部分仍保持较低水平,且多模型的事实一致性率均在95%以上,表明这些模型在处理文档时能较好地保持事实一致性。

DeepSeek-R1的高幻觉率反映了其在生成内容时存在较多错误信息,这可能对其实际应用造成负面影响,特别是在医疗建议和法律咨询等专业场景中。

[原文链接]

上一篇:

下一篇:

微信