360人工智能研究院最新推出的图文跨模态模型FG-CLIP通过“长文本深度理解”和“细粒度视觉比对”双突破,解决了传统CLIP模型的“视觉近视”问题,显著提升了细粒度特征学习能力,在多个下游任务中表现优异。
FG-CLIP采用两阶段训练策略,首阶段通过全局对比学习实现初步对齐,次阶段引入区域对比学习与难细粒度负样本学习,有效提升了模型对局部特征的精准捕捉能力。
360人工智能研究院宣布将全面开源FG-CLIP模型及相关数据,促进跨模态模型的发展。
360人工智能研究院最新推出的图文跨模态模型FG-CLIP通过“长文本深度理解”和“细粒度视觉比对”双突破,解决了传统CLIP模型的“视觉近视”问题,显著提升了细粒度特征学习能力,在多个下游任务中表现优异。
FG-CLIP采用两阶段训练策略,首阶段通过全局对比学习实现初步对齐,次阶段引入区域对比学习与难细粒度负样本学习,有效提升了模型对局部特征的精准捕捉能力。
360人工智能研究院宣布将全面开源FG-CLIP模型及相关数据,促进跨模态模型的发展。