视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law
文章摘要
【关 键 词】 图像生成、视频控制、技术创新、模型优化、资源集中
ControlNeXt是一款由思谋科技创始人贾佳亚团队开发的图像和视频生成控制工具,它在生成速度、精准控制和用户友好性方面进行了全方位优化。相较于斯坦福大学研究团队提出的ControlNet,ControlNeXt使用了不到10%的训练参数,实现了线稿生成全彩图、语义分割、边缘检测、人体姿势识别等功能。目前,ControlNeXt已经兼容了多款Stable Diffusion家族图像生成模型和视频生成模型SVD,并且实现了即插即用,无需额外配置。
ControlNeXt支持Canny边缘条件控制、掩模和景深条件控制,以及姿势条件控制,能够实现多样风格的人物生成。在SD3中,ControlNeXt支持超分辨率功能,让模糊图像变身超高清画质。在视频生成模型SVD中,ControlNeXt实现了对人体姿势动作的整体控制,连手指动作的模仿都非常精准。
ControlNeXt的创新之处在于轻量级条件控制模块设计、控制注入位置和方式的选择、交叉归一化技术的使用等多个方面。这些创新带来了训练参数、计算开销和内存占用的全面降低,以及模型训练收敛和推理层面的提速。ControlNeXt移除了ControlNet中庞大的控制分支,改而使用由多个ResNet块组成的轻量级卷积模块,从控制条件中提取特征表示,并与去噪特征对齐。在网络中间层聚合并对齐条件控制特征与去噪特征,使用交叉归一化技术,解决了训练不稳定性和收敛速度慢的问题。
贾佳亚团队的研究理念是不盲从大模型领域的Scaling Law,而是在模型算法层面进行创新,提高GPU显卡的利用率、降低功耗,用更少的计算量达到同样的效果。他们关注垂直行业的应用,通过技术迭代,将资源投入集中在特定领域,做出更精专的模型。这一思路已经在ControlNeXt、LISA、LongLoRA、LLaMA-VID、Mini-Gemini等多个项目中得到验证,这些模型在GitHub上受到了开发者的广泛喜爱。
未来,在持续技术创新的驱动下,我们有理由相信将会出现更多小而弥坚的大模型成果,它们将更容易实现商业化应用落地。
原文和模型
【原文链接】 阅读原文 [ 3277字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★