后发先至，字节版 Sora 发布！10秒长度、多主体交互、一致性多镜头

AIGC动态1年前 (2024)发布 Founder Park

3,376 0 0

文章摘要

字节跳动公司近期发布了豆包大模型的多款新品，标志着其在人工智能领域的进一步拓展。这些新品包括视频生成、音乐生成和同声传译大模型，展示了公司在AI视频生成领域的新进展，与快手等竞争对手形成竞争态势。

豆包大模型的日均tokens使用量已超过1.3万亿，四个月内增长超过10倍。在多模态方面，豆包·文生图模型日均生成图片5000万张，同时日均处理语音85万小时。目前，豆包大模型已涵盖大语言模型、视觉大模型、语音大模型三大品类，并发布了13个大模型。豆包通用模型Pro也进行了升级，初始TPM支持800k，上下文窗口达到256k。

视频生成模型包括PixelDance和Seaweed两个版本，尽管具体区别尚不明确，但均未开放试用。PixelDance V1.4由ByteDance Research团队开发，支持文生视频和图生视频，能生成长达10秒的视频片段。该模型能够遵从复杂的用户提示词，精确理解语义关系，并解锁时序性多拍动作指令与多个主体间的交互能力。此外，模型还具备炫酷的运镜能力，如变焦、环绕、平摇、缩放、目标跟随等，提供真实世界的体验。一致性多镜头生成是豆包视频生成模型的特色能力之一，能在一句提示词内实现多个镜头切换，同时保持主体、风格和氛围的一致性。模型还支持多种风格和比例，适配不同场景。

音乐生成模型实现了音乐生成通用框架，从词曲唱三个方面生成高质量音乐。用户输入Prompt后可以得到一段歌词，并在10余种不同风格的音乐和情绪表达中选择进一步创作出歌曲。基于豆包语音能力，该模型还能生成可媲美真人演唱效果的声音，实现气口、真假音转换技巧的模拟。开发者可以通过火山方舟使用豆包音乐模型API，用户也可以通过豆包App和海绵音乐App创作音乐。

同声传译模型在实时翻译方面表现出色，能够边说边译，并在办公、法律、教育等场景接近甚至超越人类同传水平。此外，该模型还支持跨语言同音色翻译。

这些新品的发布，不仅展示了字节跳动在AI领域的技术实力，也为未来的AI应用提供了更多可能性。