国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

AIGC动态1年前 (2024)发布 almosthuman2014

1,949 0 0

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

文章摘要

【关键词】 视频生成、Sora、Transformer、多模态、技术自信

OpenAI 发布的 Sora 视频生成技术引起了业界的广泛关注。Sora 能够生成长达 1 分钟的流畅、逼真视频，这一技术突破让研究者担心国内外 AI 技术差距的扩大。Sora 的核心技术之一是将视觉数据转化为统一的 patch 表示形式，并结合 Transformer 和扩散模型，展现了卓越的 scale 特性。这一技术路线与清华团队早先提出的 U-ViT 架构不谋而合，均展示了在视觉任务上的优异能力。

国内外技术储备与差距

尽管 Sora 的出现让国内外 AI 技术差距的担忧加剧，但国内公司如生数科技在视频生成领域已有一定的技术储备。生数科技基于 U-ViT 架构，开发了 UniDiffuser 多模态模型，并在大规模图文数据集上训练了 10 亿参数量的模型。生数科技 CEO 唐家渝和首席科学家朱军在接受机器之心采访时表示，虽然 Sora 提前了预期，但国内外技术差距并未形成代差，国内在图像、视频任务上的基础仍然坚实。

视频生成的挑战与机遇

视频生成技术的发展面临着多方面的挑战，包括如何有效表示和压缩视频数据，以及如何让架构有效训练。Sora 的成功不仅在于生成能力，还包括语义理解、数据标注、大规模训练和工程优化等多个方面。生数科技计划加强视频生成研发投入，以应对 Sora 提出的挑战。同时，Sora 的发布也为视频生成领域带来了新的商业机遇，尤其是在数字内容生产和物理世界交互方面。

原生多模态模型的重要性

生数科技坚持走原生多模态大模型赛道，强调从底层架构出发，实现一个模型支撑不同数据的输入输出。这种原生多模态模型能够提供更高的推理效率和用户体验。唐家渝认为，原生多模态模型的应用将极大推动社会运行方式的进化，尤其是在内容创作和物理世界认知仿真任务上。

Sora 的商业启示

Sora 的成功为生数科技提供了技术自信和资源投入的启示。OpenAI 的规模扩张策略和对技术路线的坚持，为生数科技在视频生成领域的探索提供了方向。生数科技计划通过技术自信和资源合作，将技术实现转化为产品实现，以应对视频生成领域的成本和技术挑战。