Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档

复旦大学、上海AI Lab等团队提出了VideoRoPE,一种将RoPE扩展到视频领域的技术,通过三维结构、低频时间分配、对角布局和可调时间间隔等特性,显著提升了长视频的理解和检索能力。

VideoRoPE在长视频检索、理解及幻觉任务中表现出色,优于其他RoPE变体,特别是在处理具有挑战性的视频任务时展现了更强的鲁棒性和适应性。

该研究通过V-NIAH-D任务验证了VideoRoPE的有效性,强调了其在视频处理中的实际应用潜力。

[原文链接]

上一篇:

下一篇:

微信