AI配音版Sora视频刷屏！绝美逼真音效打破「无声电影」，或颠覆万亿美元产业

AIGC动态2年前 (2024)发布 AIera

2,753 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 AI配音、Sora视频、ElevenLabs、物理规则、AI视频模型

新智元报道：语音初创公司ElevenLabs利用AI技术为Sora经典视频完成了配音，这一突破性进展让网友惊叹，AI生成电影的时代似乎越来越近。ElevenLabs的AI语音技术不仅能够模仿各种声音，还能与视频内容完美同步，为视频增添生动的音效。这一技术的发展可能会对影视、配音、游戏等多个行业产生深远影响。

ElevenLabs的创始人Piotr Dąbkowski和Mateusz Staniszewski在2022年创立了这家公司，专注于AI语音合成和文本转语音技术。尽管公司规模不大，但已经成功筹集了大量资金，并推出了一系列新产品。ElevenLabs的技术已经被应用于多个领域，包括广播、有声读物、游戏配音等。

OpenAI的Sora视频模型自发布以来，已经对影视行业产生了颠覆性影响。Sora能够生成逼真的视频，但之前缺乏配音。ElevenLabs的AI配音技术解决了这一问题，使得视频内容更加丰富和真实。这种技术的发展可能会对传统的影视制作流程产生重大影响，甚至可能改变整个行业的运作方式。

英伟达高级科学家Jim Fan分析了视频到音频的精准映射问题，指出为了实现视频和音频的无缝匹配，需要LLM（大型语言模型）理解隐式的物理原理。这包括确定物体的种类、材质和空间位置，识别物体间的互动，辨识场景环境，以及应用物理规则来创造声音。这些能力需要通过大量视频和音频数据的学习来实现。

ElevenLabs的成功也引发了对OpenAI未来可能发布的视频-音频大模型的期待。一旦这样的模型问世，可能会对ElevenLabs等专门配音的初创公司构成巨大挑战。同时，这也让人们对未来AI在视频制作领域的应用充满期待，AI可能会成为视频制作的重要工具，甚至可能改变整个行业的运作方式。