终于拿到内测!豆包-PixelDance真是字节视频生成大杀器

终于拿到内测!豆包-PixelDance真是字节视频生成大杀器

 

文章摘要


【关 键 词】 AI视频生成豆包模型音乐生成同声传译技术创新

字节跳动在AI视频生成领域取得重大进展,发布了基于DiT(扩散Transformer)架构的豆包视频生成模型PixelDance和Seaweed,以及音乐和同声传译模型,构建起火山引擎的“豆包全模态大模型家族”。PixelDance和Seaweed模型能够生成连贯一致的视频,并支持多种运镜方式、多镜头切换、变焦等技术,同时保持主体、风格、氛围的一致性。

PixelDance模型支持复杂提示词和多动作多主体交互,能在镜头切换时保持一致性,具备强大的动态和运镜能力,并支持多样化的风格和多种宽高比。豆包音乐模型能够根据文本或图片生成音乐,支持音乐转换,并精通多种音乐风格和情感色彩。豆包同声传译模型采用端到端方式实现同声传译,准确度高,延迟低,并具备音色克隆能力。

此外,火山引擎还对现有的通用语言模型、文生图模型、语音模型进行了升级。通用语言模型Pro的上下文窗口扩大,综合能力提升25%,尤其在数学和专业知识能力上。文生图模型2.0的推理效率和性能得到提升,物理感知能力和想象力增强,出图速度加快。语音合成模型新增混音功能,音色自然度、连贯性、音质和韵律达到与真人相似的水平。

豆包视频生成模型PixelDance和Seaweed已在火山引擎开启邀测,企业可通过官网提交测试申请。豆包音乐模型和同声传译模型也已向用户开放,可通过火山方舟使用API,或直接通过豆包App和海绵音乐App创作音乐。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 5774字 | 24分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...