视觉模型智能涌现后， Scaling Law 不会到头

1,234 0 0

文章摘要

【关键词】 自然语言处理、多模态模型、Scaling Law、技术突破、智能涌现

近期，哈佛大学的一篇论文《Scaling Laws for Precision》引发了关于自然语言处理领域Scaling Law可能达到瓶颈的讨论。该论文指出，当前语言模型在大量数据上过度训练，继续增加预训练数据可能产生副作用，导致模型性能提升的边际效益递减。尽管如此，Scaling Law在多模态模型领域尚未得到充分验证，因为多模态数据的复杂性使得训练规模难以扩大。

生数科技最新发布的Vidu1.5大模型展示了多模态领域的Scaling Law可能才刚刚开始。Vidu1.5通过持续的Scaling Up，展现出了上下文能力，能够理解并记忆输入的多主体信息，对复杂主体进行精准控制。用户可以上传包含人物角色、道具物体、环境背景等多种元素的图像，Vidu能够将这些元素无缝融合，并实现自然交互。

Vidu1.5的技术突破不仅在于Scaling Law法则的运用，更在于其采用的无微调、大一统的技术架构方案。这一方案与当前主流的视频模型采用的预训练+特定任务微调的LoRA方案不同，Vidu的底层模型实现了开拓性的改变。Vidu1.5的推出，标志着多模态大模型进入了类似大语言模型GPT-3.5的阶段，实现了从预训练+特定任务微调到统一通用技术架构的突破。

Vidu1.5在主体一致性方面的成果是逐步实现的。从7月份上线之初主打解决一致性问题，到9月份全球首发“主体参照”功能，再到11月上线的Vidu1.5进一步提升单主体不同视角的精准控制能力，Vidu在技术上持续突破。Vidu的技术方案摒弃了预训练+LoRA微调的方案，采用统一的底层模型技术架构，减少了数据收集、标注、微调的需要，只需1到3张图就能输出高质量视频。

Vidu1.5的成功也与其数据工程密切相关。在人物特写画面中，Vidu1.5能够确保人物面部特征细节和动态表情变化自然流畅。随着高质量数据的Scaling Up，Vidu1.5在底层视频生成模型上展现出了智能涌现，如融合不同主体创造新角色的能力。Vidu1.5的智能涌现还体现在模型上下文能力提升、记忆能力增强，这在对视频中角色、道具、场景的统一控制中得到体现。

生数科技的CTO鲍凡表示，Vidu1.5的技术壁垒在于其无微调、大一统的技术架构，这与生数科技成立之初的愿景——打造通用多模态模型——相符合。Vidu1.5在基础模型层面具备了对镜头运动的理解能力，能够生成复杂镜头，同时新上线了动态控制功能，能准确控制画面整体的动态程度。Vidu也在规划和布局4D模型、音频等更多模态，未来能够对视频实现更精确的运镜控制。尽管面临快手、字节等大厂的资源优势挑战，生数科技凭借其技术优势，在国内视频模型竞争中展现出了底气。