钛媒体AGI独家|“中国版Sora”视频大模型Vidu重大更新:时长延至32秒,首次支持音视频合成
文章摘要
【关 键 词】 自研模型、技术迭代、视频生成、音视频合成、4D生成
中国自研视频大模型Vidu取得显著进展,完成了三个重大技术迭代,标志着国产视频生成技术的一大步跨越。
首先,Vidu已能够一键生成长达32秒的视频,相较于之前有了显著的时长提升。
其次,该模型首次实现了音视频合成,即Text-2-Audio技术,能在生成的视频中同步加入自然匹配的声音效果。第三,Vidu支持4D生成技术,能够从单一视频中精确重构出时空一致的4D内容。
在实际效果演示中,Vidu展示了其强大且逼真的视频生成能力,如图书馆地球仪旋转、画室中的船驶向镜头、汽车在陡峭山坡上行驶以及围绕老式电视旋转的场景,均实现了音画同步,提升了观看体验。
Vidu模型由生数科技与清华大学联合研发,采用原创的Diffusion与Transformer融合架构U-ViT,支持高达1080P分辨率的视频内容生成。该模型不仅能够模拟真实世界,还能展现丰富想象力,并具备多镜头生成、时空一致性等特点。
此外,Vidu能理解并生成具有中国特色的元素,如熊猫、龙等。
值得注意的是,Vidu的研发团队在国内最早研究深度生成模型,并取得了全球首个融合架构多模态扩散模型UniDiffuser等突破。Vidu模型在底层算法实现上与Sora一致,基于单一模型完全端到端生成,无中间插帧等处理步骤。
作为自Sora发布后全球首个取得重大突破的视频大模型,Vidu展现了国内在视频生成领域的顶尖水平,并仍在加速迭代中。此外,生数科技也已完成数亿元Pre-A轮融资,以进一步推动大模型技术在产业中的应用,并公布“Vidu大模型合作伙伴计划”,旨在共同构建合作生态。
原文和模型
【原文链接】 阅读原文 [ 2697字 | 11分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 glm-4
【摘要评分】 ★★★★★