GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

 

文章摘要


【关 键 词】 深度估计模型优化机器学习数据引擎技术创新

字节跳动大模型团队开发的Depth Anything V2模型已入选苹果公司Core ML模型库,该模型是一种单目深度估计模型,包含不同大小的版本,适用于多种领域。Depth Anything V2在细节处理和鲁棒性上比上一代有显著提升,速度也更快。该系列模型在GitHub上已获得8.7k Star,其中V2发布不久就有2.3k Star。

Depth Anything V2作为Core ML版本,采用25M模型并经优化,在iPhone 12 Pro Max上的推理速度达到31.1毫秒。Core ML是苹果的机器学习框架,支持在iOS、MacOS等设备上高效运行模型,增强用户隐私并减少延迟。

团队依托Scaling Laws思路,构建了简单但功能强大的基础模型,在单一任务上实现更好效果。选择深度估计任务,因为其为计算机视觉领域中的基础任务,关联落地场景较多。Depth Anything V1和V2的论文一作均为团队实习生,在公司实习期间完成了相关研究工作。

Depth Anything从立项到V2版本发布历经一年左右,最困难的部分在于训练模型达到并超过已有成果水平,以及让模型在细节方面有更好表现。团队设计了数据引擎收集并自动标注大量数据,引入数据增强工具,并通过预训练编码器促使模型继承丰富的语义先验知识。

在优化细节与模型规模方面,团队发现精确的合成数据能在细节方面带来更好表现,使用合成数据训练教师模型并扩大模型规模,然后以伪标注真实图像为桥梁教授学生模型。此外,团队还提出了DA-2K评价基准,基于该基准,Depth Anything V2在多个方面优于之前成果。

展望未来,团队认为Scaling Laws将更有助于解决基础任务,充分发挥数据、模型Scaling的价值。字节跳动大模型计算机视觉方向正在持续招揽优秀人才,参与前沿探索。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3847字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...