标签:多模态

北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈

卢宗青是一位具身智能领域的创业者,拥有深厚的学术背景和实践经验。他曾在北京大学担任计算机学院长聘副教授,并负责过多个国家级科研项目。他的研究领域从...

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

当前最先进的机器人在工具使用上仍面临显著挑战,无法像人类一样直觉地操作工具。它们每次使用工具时都需要重新识别和规划,这种割裂式的处理方式限制了其能...

揭秘千卡 GPU 集群如何高效训练多模态大模型:vivo AI 团队实战经验分享|AICon

多模态大模型在智能客服、自动驾驶、AIGC等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级GPU训练集...

直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼

CVPR 2025作为计算机视觉领域的顶级会议,吸引了全球学术界和产业界的广泛关注。此次会议不仅展示了最前沿的技术成果,还反映了当前研究热点和未来发展趋势。...

松下发布多模态大模型,文本、图像、音频随意切换

随着大模型技术的快速发展,多模态数据处理逐渐成为研究热点。多模态生成任务通过整合文本、图像、音频等多种类型的数据,实现不同模态之间的相互转换与生成...

“多模态方法无法实现AGI”

生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来,但这些模型并未真正捕捉到人类智能的本质。它们之所以出现,主要是因为它们能够有效地扩...

AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

豆包大模型1.6作为国内首款多模态SOTA模型,在火山引擎原动力大会上正式亮相。该模型支持256k上下文长度,具备深度思考能力,并首次实现GUI操作功能,形成'视...

对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天

在2024年智源大会上,智源研究院发布了'悟界'系列大模型,标志着人工智能技术向物理世界探索的显著进展。原生多模态世界模型Emu3通过统一架构实现了文本、图...

超6.4亿次下载!智源发布具身大脑等五大新技术,王仲远:具身智能的淘汰赛还没开始

第七届智源大会于6月6日在北京召开,北京智源人工智能研究院发布了“悟界”系列大模型,标志着AI技术从数字世界向物理世界的加速迈进。这一系列包括原生多模态...

刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙

AI领域在2025年展现出跨越式发展态势,技术前沿已从单一模态理解扩展到对物理世界的系统性建模。第七届智源大会汇集全球顶尖学者与企业领袖,集中探讨了智能...
1 2 3 33