视觉模型智能涌现后, Scaling Law 不会到头
文章摘要
【关 键 词】 自然语言处理、多模态模型、Scaling Law、技术突破、智能涌现
近期,哈佛大学的一篇论文《Scaling Laws for Precision》引发了关于自然语言处理领域Scaling Law可能达到瓶颈的讨论。该论文指出,当前语言模型在大量数据上过度训练,继续增加预训练数据可能产生副作用,导致模型性能提升的边际效益递减。尽管如此,Scaling Law在多模态模型领域尚未得到充分验证,因为多模态数据的复杂性使得训练规模难以扩大。
生数科技最新发布的Vidu1.5大模型展示了多模态领域的Scaling Law可能才刚刚开始。Vidu1.5通过持续的Scaling Up,展现出了上下文能力,能够理解并记忆输入的多主体信息,对复杂主体进行精准控制。用户可以上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝融合,并实现自然交互。
Vidu1.5的技术突破不仅在于Scaling Law法则的运用,更在于其采用的无微调、大一统的技术架构方案。这一方案与当前主流的视频模型采用的预训练+特定任务微调的LoRA方案不同,Vidu的底层模型实现了开拓性的改变。Vidu1.5的推出,标志着多模态大模型进入了类似大语言模型GPT-3.5的阶段,实现了从预训练+特定任务微调到统一通用技术架构的突破。
Vidu1.5在主体一致性方面的成果是逐步实现的。从7月份上线之初主打解决一致性问题,到9月份全球首发“主体参照”功能,再到11月上线的Vidu1.5进一步提升单主体不同视角的精准控制能力,Vidu在技术上持续突破。Vidu的技术方案摒弃了预训练+LoRA微调的方案,采用统一的底层模型技术架构,减少了数据收集、标注、微调的需要,只需1到3张图就能输出高质量视频。
Vidu1.5的成功也与其数据工程密切相关。在人物特写画面中,Vidu1.5能够确保人物面部特征细节和动态表情变化自然流畅。随着高质量数据的Scaling Up,Vidu1.5在底层视频生成模型上展现出了智能涌现,如融合不同主体创造新角色的能力。Vidu1.5的智能涌现还体现在模型上下文能力提升、记忆能力增强,这在对视频中角色、道具、场景的统一控制中得到体现。
生数科技的CTO鲍凡表示,Vidu1.5的技术壁垒在于其无微调、大一统的技术架构,这与生数科技成立之初的愿景——打造通用多模态模型——相符合。Vidu1.5在基础模型层面具备了对镜头运动的理解能力,能够生成复杂镜头,同时新上线了动态控制功能,能准确控制画面整体的动态程度。Vidu也在规划和布局4D模型、音频等更多模态,未来能够对视频实现更精确的运镜控制。尽管面临快手、字节等大厂的资源优势挑战,生数科技凭借其技术优势,在国内视频模型竞争中展现出了底气。
原文和模型
【原文链接】 阅读原文 [ 3981字 | 16分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★