
文章摘要
视觉自监督学习(SSL)在多模态任务中的潜力得到了验证,研究表明,通过扩展模型和数据规模,SSL能够媲美甚至超越语言监督方法(如CLIP)。这项研究由杨立昆、谢赛宁等研究人员主导,旨在探讨语言监督是否是多模态建模中视觉表征预训练的必要条件。研究团队并未试图取代语言监督方法,而是希望理解视觉自监督方法在多模态应用上的内在能力和局限性。尽管SSL在传统视觉任务(如分类和分割)上表现优异,但在多模态大语言模型(MLLMs)中的应用较少,部分原因是其在视觉问答(VQA)任务中的性能差距,尤其是在光学字符识别(OCR)和图表解读任务中。
研究团队通过扩展模型和数据规模,证明了视觉SSL在广泛的VQA任务中能够达到甚至超越语言监督方法。他们训练了一系列参数从1B到7B的视觉SSL模型Web-SSL,并在数十亿级规模网络数据上进行训练,与最先进的CLIP模型进行直接比较。评估结果显示,视觉SSL在模型容量和数据规模上的扩展性良好,表明SSL具有巨大的开发潜力。特别是在OCR和图表任务中,视觉SSL表现出了显著的竞争力,甚至在某些任务上超越了CLIP。
研究团队还探讨了视觉SSL模型在模型规模和数据规模上的扩展表现。通过将模型规模从10亿参数增加到70亿参数,并保持训练数据固定为20亿张图片,研究发现,视觉SSL的性能随着模型规模的增加而持续提升,尤其是在OCR和图表任务中。此外,增加训练数据量也显著提升了模型的性能,特别是在OCR和图表任务中,模型的表现随着数据量的增加而持续提升。
Web-SSL系列模型在VQA和经典视觉任务上均表现出色,超越了现成的语言监督CLIP模型。即便在没有语言监督的情况下,Web-DINO ViT-7B在VQA任务上与CLIP模型表现相当,在传统视觉任务上甚至超过了它们。研究结果表明,视觉SSL模型可能比语言监督模型具有更好的扩展潜力,尤其是在大规模数据和模型规模下。
研究团队计划开源Web-SSL视觉模型,以激励更广泛的社区在多模态时代充分释放视觉SSL的潜力。这一举措有望推动视觉自监督学习在多模态任务中的进一步研究和应用,为无语言监督的视觉预训练开辟新的方向。
原文和模型
【原文链接】 阅读原文 [ 2781字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★