3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

3B参数的Video-XL-Pro模型在超长视频理解任务中超越了Meta的7B模型Apollo-7B,实现了近万帧视频的单卡处理,并在多个基准评测上取得了卓越性能。

该模型采用“重构式token压缩”技术(ReCoT),通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

Video-XL-Pro在多个长视频理解基准评测中表现优异,特别是在MLVU、TempCompass和V-STaR等评测中超越了同参数量的知名开源模型和大部分7B模型。

[原文链接]

上一篇:

下一篇:

微信