后发先至,字节版 Sora 发布!10秒长度、多主体交互、一致性多镜头
文章摘要
【关 键 词】 AI视频、音乐生成、同声传译、多模态、技术竞争
字节跳动公司近期发布了豆包大模型的多款新品,标志着其在人工智能领域的进一步拓展。这些新品包括视频生成、音乐生成和同声传译大模型,展示了公司在AI视频生成领域的新进展,与快手等竞争对手形成竞争态势。
豆包大模型的日均tokens使用量已超过1.3万亿,四个月内增长超过10倍。在多模态方面,豆包·文生图模型日均生成图片5000万张,同时日均处理语音85万小时。目前,豆包大模型已涵盖大语言模型、视觉大模型、语音大模型三大品类,并发布了13个大模型。豆包通用模型Pro也进行了升级,初始TPM支持800k,上下文窗口达到256k。
视频生成模型包括PixelDance和Seaweed两个版本,尽管具体区别尚不明确,但均未开放试用。PixelDance V1.4由ByteDance Research团队开发,支持文生视频和图生视频,能生成长达10秒的视频片段。该模型能够遵从复杂的用户提示词,精确理解语义关系,并解锁时序性多拍动作指令与多个主体间的交互能力。此外,模型还具备炫酷的运镜能力,如变焦、环绕、平摇、缩放、目标跟随等,提供真实世界的体验。一致性多镜头生成是豆包视频生成模型的特色能力之一,能在一句提示词内实现多个镜头切换,同时保持主体、风格和氛围的一致性。模型还支持多种风格和比例,适配不同场景。
音乐生成模型实现了音乐生成通用框架,从词曲唱三个方面生成高质量音乐。用户输入Prompt后可以得到一段歌词,并在10余种不同风格的音乐和情绪表达中选择进一步创作出歌曲。基于豆包语音能力,该模型还能生成可媲美真人演唱效果的声音,实现气口、真假音转换技巧的模拟。开发者可以通过火山方舟使用豆包音乐模型API,用户也可以通过豆包App和海绵音乐App创作音乐。
同声传译模型在实时翻译方面表现出色,能够边说边译,并在办公、法律、教育等场景接近甚至超越人类同传水平。此外,该模型还支持跨语言同音色翻译。
这些新品的发布,不仅展示了字节跳动在AI领域的技术实力,也为未来的AI应用提供了更多可能性。
原文和模型
【原文链接】 阅读原文 [ 3147字 | 13分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★