该研究由University of Copenhagen和ETH Zurich等团队合作完成,提出了一个全新的多模态Few-shot 3D分割设定,通过融合文本、2D和3D信息,提高了小样本新类别学习与泛化能力,无需额外标注成本。
传统3D场景理解依赖大量详细标注数据,耗时且昂贵,而多模态Few-shot 3D分割方法通过少量标注样本快速适应新类别,为3D场景理解模型的应用拓宽了范围。
论文提出的Multimodal Few-Shot SegNet (MM-FSS)模型在多模态信息融合方面取得了显著效果,证明了利用文本和2D信息对于提升小样本新类泛化能力的重要性。