多模态 | 第 4 页

直击CVPR现场：中国玩家展商面前人从众，腾讯40+篇接收论文亮眼

CVPR 2025作为计算机视觉领域的顶级会议，吸引了全球学术界和产业界的广泛关注。此次会议不仅展示了最前沿的技术成果，还反映了当前研究热点和未来发展趋势。...

AIGC动态

3个月前

松下发布多模态大模型，文本、图像、音频随意切换

随着大模型技术的快速发展，多模态数据处理逐渐成为研究热点。多模态生成任务通过整合文本、图像、音频等多种类型的数据，实现不同模态之间的相互转换与生成...

AIGC动态

3个月前

“多模态方法无法实现AGI”

生成式人工智能模型的成功让一些人相信人工通用智能（AGI）即将到来，但这些模型并未真正捕捉到人类智能的本质。它们之所以出现，主要是因为它们能够有效地扩...

AIGC动态

3个月前

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

豆包大模型1.6作为国内首款多模态SOTA模型，在火山引擎原动力大会上正式亮相。该模型支持256k上下文长度，具备深度思考能力，并首次实现GUI操作功能，形成'视...

AI-Agent

3个月前

对话智源王仲远：机器人的大小脑可能会“合体”，但不是今天

在2024年智源大会上，智源研究院发布了'悟界'系列大模型，标志着人工智能技术向物理世界探索的显著进展。原生多模态世界模型Emu3通过统一架构实现了文本、图...

AIGC动态

3个月前

超6.4亿次下载！智源发布具身大脑等五大新技术，王仲远：具身智能的淘汰赛还没开始

第七届智源大会于6月6日在北京召开，北京智源人工智能研究院发布了“悟界”系列大模型，标志着AI技术从数字世界向物理世界的加速迈进。这一系列包括原生多模态...

AIGC动态

3个月前

刚刚，智源全新「悟界」系列大模型炸场！AI第一次真正「看见」宏观-微观双宇宙

AI领域在2025年展现出跨越式发展态势，技术前沿已从单一模态理解扩展到对物理世界的系统性建模。第七届智源大会汇集全球顶尖学者与企业领袖，集中探讨了智能...

AIGC动态

3个月前

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

智源研究院与上海交通大学等机构联合发布了新一代超长视频理解模型Video-XL-2，该模型在长视频理解领域取得了显著进展。长视频理解是多模态大模型的关键能力...

AIGC动态

4个月前

单卡也能跑万帧！智源发布Video-XL-2，速度、效果、长度全拉满

智源研究院近日发布了新一代超长视频理解模型Video-XL-2，该模型在长视频理解任务中表现出色，显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...

AIGC动态

4个月前

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解作为多模态大模型的关键能力之一，尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展，但开源模型在效果、计算开销和运行效率等方面仍存...

AIGC动态

4个月前

标签：多模态

直击CVPR现场：中国玩家展商面前人从众，腾讯40+篇接收论文亮眼

松下发布多模态大模型，文本、图像、音频随意切换

“多模态方法无法实现AGI”

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

对话智源王仲远：机器人的大小脑可能会“合体”，但不是今天

超6.4亿次下载！智源发布具身大脑等五大新技术，王仲远：具身智能的淘汰赛还没开始

刚刚，智源全新「悟界」系列大模型炸场！AI第一次真正「看见」宏观-微观双宇宙

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

单卡也能跑万帧！智源发布Video-XL-2，速度、效果、长度全拉满

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

热门网址

标签：多模态

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址