HiDream CTO 姚霆：Sora 出圈，中国 AI 创业公司的机会在哪里？

AIGC动态2年前 (2024)发布 Founder Park

2,131 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

在这篇文章中，HiDream.ai 智象未来的 CTO 姚霆博士对 Sora 的技术进行了深入解读，并探讨了 AI 生成视频技术在影视级应用方面的实践。智象未来开发的「智象视觉大模型」是目前全球最大的同时支持图像和视频生成的模型，拥有超过 130 亿的模型参数，能够实现多模态内容的生成。姚霆博士从技术角度分析了电影/视频的本质，并讨论了主流的视频生成模型框架，如 Diffusion model 和 Auto-regressive model。他强调了 AI 生成视频的技术流程，包括利用 LLM 自动生成剧本、控制全局/局部运动以及生成超高清视频。

姚霆博士还介绍了智象未来推出的 AI 生成图片和视频工具——Pixeling 千象，它帮助用户一站式生成精准可控的图片和视频。他分享了一个案例，一位北京电影学院的学生使用千象制作了一部北欧童话短片，展现了壮丽魔幻的风景。

文章中，姚霆博士对 Sora 的发布进行了评价，认为它是一个 2D 平面世界在时间维度上的流动与变化的模拟器，并且是 4D 原生世界模型的一个低阶版本。他还讨论了 Sora 的设计理念，以及 OpenAI 实现 Sora 的原因。姚霆博士强调，智象未来正在追赶并打造自己的差异化，专注于视频生成过程中的关键要素，如视觉故事性、内容确定性、超高清画质以及全局和局部的可控性。

最后，姚霆博士介绍了自己的背景和成就，并邀请读者加入大模型交流群，共同探讨大模型时代的共识和认知。文章还提供了更多阅读材料，涉及 GPT、DALL·E、Sora 以及大模型领域的其他话题。