告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解

360人工智能研究院最新推出的图文跨模态模型FG-CLIP通过“长文本深度理解”和“细粒度视觉比对”双突破,解决了传统CLIP模型的“视觉近视”问题,显著提升了细粒度特征学习能力,在多个下游任务中表现优异。

FG-CLIP采用两阶段训练策略,首阶段通过全局对比学习实现初步对齐,次阶段引入区域对比学习与难细粒度负样本学习,有效提升了模型对局部特征的精准捕捉能力。

360人工智能研究院宣布将全面开源FG-CLIP模型及相关数据,促进跨模态模型的发展。

[原文链接]

上一篇:

下一篇:

微信