GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

AIGC动态1年前 (2024)发布 almosthuman2014

2,712 0 0

文章摘要

字节跳动大模型团队开发的Depth Anything V2模型已入选苹果公司Core ML模型库，该模型是一种单目深度估计模型，包含不同大小的版本，适用于多种领域。Depth Anything V2在细节处理和鲁棒性上比上一代有显著提升，速度也更快。该系列模型在GitHub上已获得8.7k Star，其中V2发布不久就有2.3k Star。

Depth Anything V2作为Core ML版本，采用25M模型并经优化，在iPhone 12 Pro Max上的推理速度达到31.1毫秒。Core ML是苹果的机器学习框架，支持在iOS、MacOS等设备上高效运行模型，增强用户隐私并减少延迟。

团队依托Scaling Laws思路，构建了简单但功能强大的基础模型，在单一任务上实现更好效果。选择深度估计任务，因为其为计算机视觉领域中的基础任务，关联落地场景较多。Depth Anything V1和V2的论文一作均为团队实习生，在公司实习期间完成了相关研究工作。

Depth Anything从立项到V2版本发布历经一年左右，最困难的部分在于训练模型达到并超过已有成果水平，以及让模型在细节方面有更好表现。团队设计了数据引擎收集并自动标注大量数据，引入数据增强工具，并通过预训练编码器促使模型继承丰富的语义先验知识。

在优化细节与模型规模方面，团队发现精确的合成数据能在细节方面带来更好表现，使用合成数据训练教师模型并扩大模型规模，然后以伪标注真实图像为桥梁教授学生模型。此外，团队还提出了DA-2K评价基准，基于该基准，Depth Anything V2在多个方面优于之前成果。

展望未来，团队认为Scaling Laws将更有助于解决基础任务，充分发挥数据、模型Scaling的价值。字节跳动大模型计算机视觉方向正在持续招揽优秀人才，参与前沿探索。