
文章摘要
【关 键 词】 DINOv3、自监督学习、计算机视觉、火星探索、模型蒸馏
Meta训练出70亿参数的「视觉巨兽」DINOv3,通过自监督学习(SSL)训练可生成强大且高分辨率的图像特征,在多个密集预测任务中超越专用解决方案,重新定义计算机视觉性能天花板,且已被美国NASA应用于火星探索。
DINOv3具有诸多亮点:SSL支持在无标签情况下训练含17亿张图像、70亿参数的模型,适用于标注资源稀缺场景;能生成出色的高分辨率特征,在密集预测任务上实现先进性能;可用于多样化视觉任务和领域,采用冻结主干;包含蒸馏后更小的模型以实现灵活部署。
自监督学习无需人工标注数据,已成为现代机器学习主导范式,但计算机视觉领域进展相对滞后。DINOv3提出新的无监督学习技术,减少训练所需时间和资源,适用于标注稀缺场景,能加速现有应用发展,解锁全新应用场景。
DINOv3首次证明自监督学习模型能在广泛任务中超越弱监督模型表现。它延续DINO算法,所需训练算力仅为以往方法的一小部分,在下游任务中能取得最优表现,无需为特定任务微调即可应用于更广泛场景。其不仅适用于网络图像,还能推广到标注困难的领域,已在现实世界产生影响,如世界资源研究所用其监测森林砍伐,精度提升显著。
相较前一代DINOv2,DINOv3规模大幅提升,模型参数扩大7倍,训练数据量提升12倍。在多项视觉任务和基准测试中,其骨干网络表现出色,能提取丰富密集特征,即便使用少量标注数据和简单线性模型,也能实现稳健的密集预测效果,无需微调就能在多个视觉任务中达到先进水平,适合边缘设备并行执行多项视觉处理。
为满足实际部署需求,Meta构建了一个覆盖不同计算需求的模型家族,将ViT – 7B蒸馏成更小版本,推出基于ViT – 7B蒸馏的ConvNeXt架构,并开放完整蒸馏流程。
原文和模型
【原文链接】 阅读原文 [ 1881字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★☆