标签:多模态
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
近来,GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力,引发了关于多模态大模型(MLLMs)创造力天花板的讨论。现有的评测基准难...
第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1
国产AI领域迎来了一款名为「AutoGLM 沉思」的自主智能体产品,由中国公司智谱推出。这款产品不仅具备深度研究能力,还能动手操作,标志着AI技术从单纯的语言...
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
OPPO研究院与香港科技大学(广州)的研究人员提出了一项名为OThink-MR1的新技术,旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能...
三星国行 Bixby 更新“语聊视界”,我们的生活离《Her》更近了一步?
三星 Galaxy S25 系列国行版本的 Bixby 语音助手于 3 月 26 日正式推出了“语聊视界”功能,这一功能基于多模态大模型,旨在提供超拟人的实时语音和视频聊天体...
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
阿里发布了首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,该模型能够处理文本、音频、图像和视频等多种模态,并实时生成文本和自然语音。Qwen2.5-Omni-7...
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在...
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍
创建和理解3D结构在科学研究中具有重要意义,它不仅承载了丰富的物理与化学信息,还为解构复杂系统、进行模拟预测和跨学科创新提供了重要工具。随着AI技术的...
英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型
英伟达团队在GTC大会上发布了新的物理世界大模型Cosmos-Reason1,该模型专注于提升AI系统与物理世界交互的推理能力。作为Cosmos系列的一部分,Cosmos-Reason1...
OpenAI语音智能体诞生,怼脸实拍语气狂到飞起!API降到每分钟0.3美分
OpenAI最新发布的音频模型标志着语音智能体时代的正式开启。此次发布的三款模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,分别专注于...
英伟达开源通用机器人大模型—GR00T N1
全球AI领导者英伟达在“GTC 2025”开发者大会上宣布开源人形机器人通用大模型GR00T N1,该模型能够处理多模态数据,包括语言、图像和视频,适用于家务、工厂等...