标签:模型架构

Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

视频生成的挑战视频生成比图像合成更复杂,因为它需要在不同帧之间保持时间一致性,并且收集高质量的视频数据比收集图像数据更具挑战性。从头建模视频生成文...

Llama架构比不上GPT2?神奇token提升10倍记忆?

这篇文章主要介绍了朱泽园和李远志最新研究的内容,标题为《语言模型物理学 Part 3.3:知识的 Scaling Laws》。他们通过海量实验总结了12条定律,为语言模型...

全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重

文章介绍了全球首个开源的类Sora架构视频生成模型Open-Sora 1.0的发布。该模型开放了整个训练流程,包括数据处理、训练细节和模型权重。Open-Sora能生成繁华...

复现 Sora 的方法及路径分析

本文深入探讨了Sora的核心技术原理、实现方法,并对其未来发展进行展望。Sora采用了高质量的数据集,结合UE数据,通过深度神经网络学习三维空间的物理规律。...

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

零一万物公司于1月22日发布了Yi-VL多模态语言大模型,该模型基于Yi语言模型开发,包括Yi-VL-34B和Yi-VL-6B两个版本。Yi-VL模型在英文数据集MMMU和中文数据集C...

Amphion:最全能的开源AI音频项目,在音频商业化方面有极大的帮助

Amphion是一个面向音频、音乐和语音生成的工具包,旨在支持可复制研究,并帮助初级研究人员和工程师进入音频、音乐和语音生成领域。它提供了多种功能,包括TT...