苹果传统强项再发力,视觉领域三种模态终于统一

文章摘要
【关 键 词】 苹果研究、ATOKEN、视觉分词、多模态AI、性能出色
苹果虽在大模型领域表现不佳,但在计算机视觉领域的智能研究是其传统强项。为解决视觉模型拆分、难以统一泛化的痛点,Apple研究团队提出了ATOKEN(A Unified Tokenizer for Vision)。
ATOKEN是首个在图像、视频和三维资产上同时实现高保真重建与语义理解的统一视觉分词器,将多样化视觉输入编码到共享的四维潜在空间,在单一框架下统一任务与模态。其核心创新在于提出共享的稀疏4D潜在空间,把所有视觉模态表示为特征 – 坐标对集合,能处理任意分辨率与时序长度,实现对多样化视觉格式的原生处理。基于此统一潜在表示,系统导出用于重建任务和语义理解的投影。
在架构上,ATOKEN采用纯Transformer架构,超越传统卷积方法。利用统一时空块嵌入、4D旋转位置嵌入和编码器扩展,具有4D RoPE定位、无对抗训练和双目标优化。
训练方面,ATOKEN采用四阶段渐进式训练课程,从图像逐步扩展到视频和三维资产,并支持连续与离散潜在token。这种训练方法表明多模态训练能增强而非削弱单一模态性能,与传统“任务干扰”认知相反。
实验结果显示,ATOKEN在各类评测指标上表现出色。在图像分词中,重建性能显著优于统一分词方法UniTok,语义理解与基础SigLIP2模型相比几乎无明显退化;视频处理中,重建性能与专门视频模型相当,语义理解展现出有效时序 – 语义建模能力;三维资产处理中,重建性能超过专门的3D分词器Trellis – SLAT,语义理解验证了强大的3D语义表示能力。
在下游应用中,AToken支持生成和理解任务,并在各类基准上取得有竞争力的性能,这表明基于统一视觉分词的下一代多模态AI系统正逐渐成为现实。
原文和模型
【原文链接】 阅读原文 [ 1794字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★☆