人大系多模态模型迈向AGI:首次实现自主更新,写真视频生成力压Sora

人大系多模态模型迈向AGI:首次实现自主更新,写真视频生成力压Sora

 

文章摘要


【关 键 词】 通用人工智能多模态大模型自主更新视频生成Transformer技术

在4月27日的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎发布了全新的多模态大模型Awaker 1.0,标志着向通用人工智能(AGI)迈出了重要一步。Awaker 1.0采用了全新的MOE架构,并具备自主更新能力,是业界首个实现“真正”自主更新的多模态大模型。

在视觉生成方面,Awaker 1.0采用了完全自研的视频生成底座VDT,取得了优于Sora的效果,打破了大模型落地难的困境。Awaker 1.0是一个将视觉理解与视觉生成进行超级融合的多模态大模型。在理解侧,Awaker 1.0与数字世界和现实世界进行交互,将场景行为数据反哺给模型,实现持续更新与训练;在生成侧,Awaker 1.0可以生成高质量的多模态内容,对现实世界进行模拟,为理解侧模型提供更多的训练数据。

Awaker 1.0的MOE基座模型主要解决了多模态多任务预训练存在严重冲突的问题。得益于精心设计的多任务MOE架构,Awaker 1.0的基座模型既能继承智子引擎前代多模态大模型ChatImg的基础能力,还能学习各个多模态任务所需的独特能力。在多个任务上,Awaker 1.0的基座模型能力都有了大幅提升。

Awaker 1.0的自主更新机制包含三大关键技术:数据主动生成、模型反思评估、模型连续更新。这使得Awaker 1.0的参数可以实时持续地更新,与各种智能设备结合,通过智能设备观察世界,产生动作意图,并自动构建指令控制智能设备完成各种动作。智能设备在完成各种动作后会自动产生各种反馈,Awaker 1.0能够从这些动作和反馈中获取有效的训练数据进行持续的自我更新,不断强化模型的各种能力。

多模态大模型与具身智能的结合是非常自然的,因为多模态大模型所具有的视觉理解能力可以天然与具身智能的摄像头进行结合。在人工智能领域,“多模态大模型+具身智能”甚至被认为是实现通用人工智能(AGI)的可行路径。Awaker 1.0作为“大脑”部署在云端,控制各种边端智能设备执行各项任务。边端智能设备执行各项任务时获得的反馈又会源源不断地传回给Awaker 1.0,让它持续地获得训练数据,不断进行自我更新。

Awaker 1.0的生成侧是智子引擎自主研发的类Sora视频生成底座VDT,可以用作现实世界的模拟器。VDT的研究成果于2023年5月发布在arXiv网站,比OpenAI发布Sora提前10个月。VDT的学术论文已经被国际顶级人工智能会议ICLR 2024接收。VDT的创新之处主要包括将Transformer技术应用于基于扩散的视频生成,展现了Transformer在视频生成领域的巨大潜力。VDT的优势在于其出色的时间依赖性捕获能力,能够生成时间上连贯的视频帧,包括模拟三维对象随时间的物理动态。

总之,Awaker 1.0是智子引擎团队向着“实现AGI”的终极目标迈进的关键一步。团队认为AI的自我探索、自我反思等自主学习能力是智能水平的重要评估标准,与持续加大参数规模(Scaling Law)相比是同等重要的。Awaker 1.0已实现“数据主动生成、模型反思评估、模型连续更新”等关键技术框架,在理解侧和生成侧都实现了效果突破,有望加速多模态大模型行业的发展,最终让人类实现AGI。

原文和模型


【原文链接】 阅读原文 [ 3541字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...