终于拿到内测！豆包-PixelDance真是字节视频生成大杀器

AIGC动态1年前 (2024)发布 almosthuman2014

3,756 0 0

文章摘要

字节跳动在AI视频生成领域取得重大进展，发布了基于DiT（扩散Transformer）架构的豆包视频生成模型PixelDance和Seaweed，以及音乐和同声传译模型，构建起火山引擎的“豆包全模态大模型家族”。PixelDance和Seaweed模型能够生成连贯一致的视频，并支持多种运镜方式、多镜头切换、变焦等技术，同时保持主体、风格、氛围的一致性。

PixelDance模型支持复杂提示词和多动作多主体交互，能在镜头切换时保持一致性，具备强大的动态和运镜能力，并支持多样化的风格和多种宽高比。豆包音乐模型能够根据文本或图片生成音乐，支持音乐转换，并精通多种音乐风格和情感色彩。豆包同声传译模型采用端到端方式实现同声传译，准确度高，延迟低，并具备音色克隆能力。

此外，火山引擎还对现有的通用语言模型、文生图模型、语音模型进行了升级。通用语言模型Pro的上下文窗口扩大，综合能力提升25%，尤其在数学和专业知识能力上。文生图模型2.0的推理效率和性能得到提升，物理感知能力和想象力增强，出图速度加快。语音合成模型新增混音功能，音色自然度、连贯性、音质和韵律达到与真人相似的水平。

豆包视频生成模型PixelDance和Seaweed已在火山引擎开启邀测，企业可通过官网提交测试申请。豆包音乐模型和同声传译模型也已向用户开放，可通过火山方舟使用API，或直接通过豆包App和海绵音乐App创作音乐。