英伟达开源「描述一切」模型,拿下7个基准SOTA

来自英伟达、UC伯克利等机构的研究者推出了一种名为DAM(Describe Anything Model)的多模态大语言模型,能够生成图像或视频中特定区域的详细描述。用户可以通过点、框、涂鸦或蒙版指定区域,DAM将提供这些区域丰富的上下文描述,解决了图像和视频中特定区域生成详细准确描述的挑战。

DAM在局部图像与视频描述任务中表现出色,特别是在object-level LVIS和part-level PACO数据集上的测试中取得了最佳性能,并在多个基准测试中达到了当前最先进的水平。

[原文链接]

上一篇:

下一篇:

微信