腾讯混元文生图大模型开源:Sora 同架构,更懂中文

AIGC动态6个月前更新 Founder Park
1,075 0 0
腾讯混元文生图大模型开源:Sora 同架构,更懂中文

 

文章摘要


【关 键 词】 开源模型混元文生图 DiT架构中文能力视频生成

腾讯最近开源了其混元文生图大模型,这是一个业内首个中文原生的 DiT(扩散模型与 Transformer)架构的文生图开源模型,具备中英文双语输入及理解的能力。混元文生图通过持续迭代,整体性能已达到国内领先水平,部分中文能力已接近 GPT-4。该模型支持多种视频生成能力,包括16秒视频生成,并已布局文/图生3D,可快速生成3D模型。混元文生图大模型已在广告、游戏等多个场景中得到应用,比如用于素材创作、商品合成等。

腾讯选择在当前阶段开源混元文生图,主要考虑到该模型已经相对成熟,同时业界也需要这样的开源模型。开源可以降低成本,避免重复研发,并且通过社区参与,可以加速模型迭代。混元文生图采用 DiT 架构,相较于之前的 Unet 架构,扩展性和天花板更高。腾讯后续还会考虑将其他模型开源。混元文生图在中文语义理解和表达能力上具有优势,评估显示其在多个维度上处于领先。针对训练数据,腾讯会持续扩充数据量,以提升模型性能。在应用场景上,腾讯针对社交、游戏、广告等不同场景进行了定制化开发。

目前混元文生图在视频生成上的成熟度尚不如文本和图像,主要难点在于生成高质感视频的计算资源消耗大。未来混元文生图团队会继续优化模型结构,提升生成效率和质量,并解决不同模态之间的对齐问题。总体来说,混元文生图的推出标志着腾讯在人工智能领域的重要进展,并为业界提供了高质量的开源模型,有望推动人工智能技术在我国的发展。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 6818字 | 28分钟 ]
【原文作者】 Founder Park
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...