文章摘要
【关 键 词】 AI视频、技术创新、跨模态理解、智能模型、行业变革
MiniMax公司的海螺AI最近推出了一项名为“主体参考”的新功能,这项技术结合了“文生视频”和“图生视频”的优点,通过上传人物图片和文本提示,能够自动识别人物并根据指令进行表演。这一创新大幅降低了短剧制作的门槛和成本,有可能颠覆传统的AI视频模型制作流程。
“主体参考”功能的核心在于其三模态自研基座模型,该模型能够跨模态理解视觉和语言概念,类似于人类处理视觉和文字信息的方式。模型首先提取图片中的“主体”视觉信息,然后用户可以通过文字指令自由操控这些主体,同时保持视觉细节的精准还原。这使得主体既能保持原有形象,又能根据用户的想法自由行动和表现状态。
海螺AI的这一功能在测试中表现出色,即使使用一张人物图片,也能实现精准复原,且视频质量与图片清晰度直接相关。与训练LoRA人像模型的技术路线相比,主体参考方案在生成效果上限、用户输入和计算成本方面都具有优势。海螺AI只需1张图片输入和一次生成成本,而LoRA方案则需要数十个特定视频和超过100倍的计算量。
海螺AI的主体参考功能目前主要针对单个人物,未来将拓展到多人、物体、场景等更多样化的参考。该功能在人物面部细节一致性、复杂姿势与表情方面表现出色,能够实现自由组合动作和环境,甚至传递情绪。这对于AI短剧、AI广告等行业来说,可以大幅提升创作效率,降低成本,推动行业进入新时代。
MiniMax虽然成立仅3年,但在AI领域已取得显著成就。海螺AI在海外180多个国家和地区获得认可,被视为代表中国先进AI技术的代名词。在VBench、Video Arena等多个国际权威评测榜单中,海螺AI综合排名第一,领先于画面质量、连贯性、流畅性等多维度。随着视频模型行业竞争的多样化,海螺AI将继续注重技术创新,为用户提供更智能和优质的模型体验。
原文和模型
【原文链接】 阅读原文 [ 2494字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★