大神Karpathy都投的AI实时视频生成模型：直播都能立即转，无限时长几乎零延迟

626 0 0

文章摘要

Decart公司推出的MirageLSD模型，首次实现了零延迟无限实时视频生成，标志着AI技术在视频生成领域的一次重大突破。MirageLSD能够实时生成视频流，支持多种输入形式，包括直播、游戏、视频通话等，且没有时长限制，延迟降至40毫秒以下。这一技术革新不仅大幅提升了响应速度，还允许在视频生成过程中进行持续的提示、转换和编辑，真正做到了“你随时想，我随时转”。

MirageLSD的核心技术在于攻克了传统自回归视频模型中“误差累积”的难题。通过采用自定义的实时流扩散模型Live-Stream Diffusion（LSD），MirageLSD在逐帧生成内容的同时保持了时间连贯性。传统自回归模型每一帧都依赖于前一帧，导致微小误差随时间累积，最终影响生成质量。MirageLSD通过逐帧的因果自回归结构和Diffusion Forcing技术，实现了单帧去噪，无需依赖完整视频上下文，保证了逐帧生成的连贯性。

此外，MirageLSD还采用了历史增强策略，主动向输入的历史帧中添加模拟模型可能生成的伪影，使模型学会预判并纠正这些缺陷。在推理阶段，模型明确被告知“历史帧可能不准确”，从而保持对误差的警惕性，持续调用训练中学习的纠正能力。这一策略有效解决了传统自回归模型中误差累积导致画面失真的问题。

在技术实现上，MirageLSD采用改进的Transformer模型架构，搭配专门设计的视觉编码器、改进的位置编码以及针对长时间交互序列优化的结构，快速处理输入和生成输出。通过应用先进的蒸馏策略和KV缓存技术，MirageLSD在保证生成质量的前提下有效提升了运行速度，实现了每秒24帧的实时视频生成。动态输入系统能以超低延迟处理玩家输入，无论是生成新元素还是改变环境都能迅速响应。

MirageLSD由位于美国加州的初创公司Decart打造，该公司成立于2023年。2024年，Decart推出了自己的第一款模型Oasis，这是首个实时生成式AI开放世界模型，支持实时交互，能实现每秒20帧零延迟的生成效率。MirageLSD在Oasis的基础上进一步提升了生成效率，达到每秒24帧。团队还表示将定期发布MirageLSD的升级模型和新增功能，包括面部一致性、语音控制和精确物体控制等，逐步提升用户体验。

总体而言，MirageLSD的推出不仅展示了AI技术在视频生成领域的巨大潜力，也为实时互动和个性化内容创作提供了新的可能性。这一技术的广泛应用将彻底改变视频生成和互动体验的现状，推动AI技术向更高效、更智能的方向发展。