研究者探讨了视觉自监督学习(SSL)在多模态应用中的能力,发现视觉SSL模型在视觉问题解答(VQA)任务上可以与语言图像预训练(CLIP)模型匹敌,甚至在OCR & 图表理解等语言相关任务中表现更佳。
通过在大规模网络图像数据上训练视觉SSL模型,研究者证明了视觉SSL可以在广泛的VQA任务中匹配甚至超越语言监督的视觉预训练方法,且模型容量和数据量的增加对视觉SSL有积极影响。
研究者使用Web-SSL模型系列在VQA和经典视觉基准测试中进行了评估,结果显示视觉SSL在多种任务中表现出色,尤其是在OCR & 图表理解任务上,证明了视觉SSL在多模态应用中的潜力。