国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

作者信息


【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微 信 号】 almosthuman2014

国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
 

文章摘要


【关 键 词】 视频生成SoraTransformer多模态技术自信

Sora 视频生成技术引发关注

OpenAI 发布的 Sora 视频生成技术引起了业界的广泛关注。Sora 能够生成长达 1 分钟的流畅、逼真视频,这一技术突破让研究者担心国内外 AI 技术差距的扩大。Sora 的核心技术之一是将视觉数据转化为统一的 patch 表示形式,并结合 Transformer 和扩散模型,展现了卓越的 scale 特性。这一技术路线与清华团队早先提出的 U-ViT 架构不谋而合,均展示了在视觉任务上的优异能力。

国内外技术储备与差距

尽管 Sora 的出现让国内外 AI 技术差距的担忧加剧,但国内公司如生数科技在视频生成领域已有一定的技术储备。生数科技基于 U-ViT 架构,开发了 UniDiffuser 多模态模型,并在大规模图文数据集上训练了 10 亿参数量的模型。生数科技 CEO 唐家渝和首席科学家朱军在接受机器之心采访时表示,虽然 Sora 提前了预期,但国内外技术差距并未形成代差,国内在图像、视频任务上的基础仍然坚实。

视频生成的挑战与机遇

视频生成技术的发展面临着多方面的挑战,包括如何有效表示和压缩视频数据,以及如何让架构有效训练。Sora 的成功不仅在于生成能力,还包括语义理解、数据标注、大规模训练和工程优化等多个方面。生数科技计划加强视频生成研发投入,以应对 Sora 提出的挑战。同时,Sora 的发布也为视频生成领域带来了新的商业机遇,尤其是在数字内容生产和物理世界交互方面。

原生多模态模型的重要性

生数科技坚持走原生多模态大模型赛道,强调从底层架构出发,实现一个模型支撑不同数据的输入输出。这种原生多模态模型能够提供更高的推理效率和用户体验。唐家渝认为,原生多模态模型的应用将极大推动社会运行方式的进化,尤其是在内容创作和物理世界认知仿真任务上。

Sora 的商业启示

Sora 的成功为生数科技提供了技术自信和资源投入的启示。OpenAI 的规模扩张策略和对技术路线的坚持,为生数科技在视频生成领域的探索提供了方向。生数科技计划通过技术自信和资源合作,将技术实现转化为产品实现,以应对视频生成领域的成本和技术挑战。

原文信息


【原文链接】 阅读原文
【原文字数】 6326
【阅读时长】 22分钟

© 版权声明

相关文章

暂无评论

暂无评论...