国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

AIGC动态1个月前发布 AIera
288 0 0
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

 

文章摘要


【关 键 词】 多模态视频生成上下文理解技术革新AGI拼图

中国生数科技推出的Vidu 1.5模型,成为全球首个支持多主体一致性的多模态视频生成模型,颠覆了传统单点微调方法,标志着视频模型统一理解和生成的飞跃。Vidu 1.5能够将人、物、环境无缝融合到同一个视频中,生成时间不到30秒,展现了对上下文的深刻理解、记忆等能力,预示着视觉模型进入了全新的“上下文”时代,加速了通用人工智能(AGI)的到来。

Vidu 1.5在单主体100%精准控制方面实现了技术突破,能够精确控制每个细节,避免传统视频模型在复杂视角切换时产生的瑕疵。同时,Vidu 1.5能够实现多主体一致性,通过上传多个主体的图片,实现一致性控制,包括人物+道具+场景的无缝融合。此外,Vidu 1.5还能够融合不同主体特征,创造出全新的角色或物体。

Vidu 1.5的推出,得益于生数科技在多模态大模型领域的技术革新。Vidu采用了无微调大一统架构,通过视频数据的压缩获取智能,无需专门数据采集、标注、微调训练环节,一键直出高一致性视频。这一过程省去了“炼丹”环节,堪称“LoRA终结器”。Vidu 1.5的智能涌现效应,意味着视觉模型不仅能理解、能想象,还能在生成过程中进行记忆管理,成为AGI的一块重要拼图。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3898字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...