Sora竟是用这些数据训练的?OpenAI CTO坦白惹众怒
模型信息
【模型公司】 Anthropic
【模型名称】 claude-3-opus-20240229
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 Sora、文生视频、训练数据、公众人物、安全担忧
OpenAI的首席技术官Mira Murati在最近的一次采访中透露了更多关于其新推出的文生视频工具Sora的细节。采访主要围绕以下几个方面展开:
Sora的工作原理。作为一种扩散模型,Sora通过随机噪声生成图像,并注重保持帧与帧之间的连续性和一致性,以营造逼真的现实感。不过目前Sora在某些细节上如出租车颜色变化、人物手指数量等方面还存在瑕疵,未来会着力提升其稳定性和可控性。
Sora的训练数据来源。当被问及Sora是否使用了YouTube、Facebook、Instagram等平台上的视频作为训练数据时,Murati没有正面回答,只是表示使用了”公开可获得的数据和许可数据”,引发了一些争议。不过她承认Shutterstock是其数据来源之一。
Sora的发布时间和成本。Murati透露Sora有望于今年推出,但可能要等几个月,具体取决于安全测试的进展。目前生成一段20秒720p的视频需要几分钟,成本较高,但他们正努力优化,希望最终能以类似DALL·E的成本提供服务。
Sora可能带来的影响。面对Sora可能给视频行业从业者带来的冲击,以及公众对于AI生成虚假视频的担忧,Murati表示他们正在研究区分AI视频的方案如加水印,并强调要在大规模部署前解决这些问题。她认为尽管在AI安全方面还有很多难题,但这条道路绝对值得一试。
总的来说,作为一项黑科技,Sora展现了AI在视频生成领域的巨大潜力,但同时也面临着诸多技术和伦理方面的挑战。未来OpenAI还需在数据来源合规性、生成视频的真实性辨别等方面投入更多努力。
原文信息
【原文链接】 阅读原文
【阅读预估】 3304 / 14分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台