终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
文章摘要
【关 键 词】 AI视频生成、豆包模型、音乐生成、同声传译、技术创新
字节跳动在AI视频生成领域取得重大进展,发布了基于DiT(扩散Transformer)架构的豆包视频生成模型PixelDance和Seaweed,以及音乐和同声传译模型,构建起火山引擎的“豆包全模态大模型家族”。PixelDance和Seaweed模型能够生成连贯一致的视频,并支持多种运镜方式、多镜头切换、变焦等技术,同时保持主体、风格、氛围的一致性。
PixelDance模型支持复杂提示词和多动作多主体交互,能在镜头切换时保持一致性,具备强大的动态和运镜能力,并支持多样化的风格和多种宽高比。豆包音乐模型能够根据文本或图片生成音乐,支持音乐转换,并精通多种音乐风格和情感色彩。豆包同声传译模型采用端到端方式实现同声传译,准确度高,延迟低,并具备音色克隆能力。
此外,火山引擎还对现有的通用语言模型、文生图模型、语音模型进行了升级。通用语言模型Pro的上下文窗口扩大,综合能力提升25%,尤其在数学和专业知识能力上。文生图模型2.0的推理效率和性能得到提升,物理感知能力和想象力增强,出图速度加快。语音合成模型新增混音功能,音色自然度、连贯性、音质和韵律达到与真人相似的水平。
豆包视频生成模型PixelDance和Seaweed已在火山引擎开启邀测,企业可通过官网提交测试申请。豆包音乐模型和同声传译模型也已向用户开放,可通过火山方舟使用API,或直接通过豆包App和海绵音乐App创作音乐。
原文和模型
【原文链接】 阅读原文 [ 5774字 | 24分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...