3B参数的Video-XL-Pro模型在超长视频理解任务中超越了Meta的7B模型Apollo-7B,实现了近万帧视频的单卡处理,并在多个基准评测上取得了卓越性能。
该模型采用“重构式token压缩”技术(ReCoT),通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。
Video-XL-Pro在多个长视频理解基准评测中表现优异,特别是在MLVU、TempCompass和V-STaR等评测中超越了同参数量的知名开源模型和大部分7B模型。
3B参数的Video-XL-Pro模型在超长视频理解任务中超越了Meta的7B模型Apollo-7B,实现了近万帧视频的单卡处理,并在多个基准评测上取得了卓越性能。
该模型采用“重构式token压缩”技术(ReCoT),通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。
Video-XL-Pro在多个长视频理解基准评测中表现优异,特别是在MLVU、TempCompass和V-STaR等评测中超越了同参数量的知名开源模型和大部分7B模型。