[快讯] 英伟达开源「描述一切」模型，拿下7个基准SOTA

来自英伟达、UC伯克利等机构的研究者推出了一种名为DAM（Describe Anything Model）的多模态大语言模型，能够生成图像或视频中特定区域的详细描述。用户可以通过点、框、涂鸦或蒙版指定区域，DAM将提供这些区域丰富的上下文描述，解决了图像和视频中特定区域生成详细准确描述的挑战。

DAM在局部图像与视频描述任务中表现出色，特别是在object-level LVIS和part-level PACO数据集上的测试中取得了最佳性能，并在多个基准测试中达到了当前最先进的水平。