[快讯] ICML 2025 | 长视频理解新SOTA！蚂蚁&人大开源ViLAMP-7B，单卡可处理3小时视频

中国人民大学和蚂蚁技术研究院的研究团队提出了一种名为ViLAMP的新模型，用于高效处理长视频，解决了现有视觉语言模型在处理长视频时的效率和准确性问题。ViLAMP采用“混合精度”策略，对关键内容保持高精度分析，而对次要内容进行强力压缩，显著提升了处理效率和准确率。

实验结果显示，ViLAMP在多个主流视频理解基准上全面超越现有方案，特别是在处理长视频时表现出显著优势，能够在单张A100 GPU上连续处理长达1万帧的视频内容，同时保持稳定的理解准确率。