[快讯] 告别“图文不符”！FG-CLIP实现细粒度跨模态对齐，360开源模型重塑AI视觉理解

360人工智能研究院最新推出的图文跨模态模型FG-CLIP通过“长文本深度理解”和“细粒度视觉比对”双突破，解决了传统CLIP模型的“视觉近视”问题，显著提升了细粒度特征学习能力，在多个下游任务中表现优异。

FG-CLIP采用两阶段训练策略，首阶段通过全局对比学习实现初步对齐，次阶段引入区域对比学习与难细粒度负样本学习，有效提升了模型对局部特征的精准捕捉能力。

360人工智能研究院宣布将全面开源FG-CLIP模型及相关数据，促进跨模态模型的发展。