标签:多模态
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
阿里发布了首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,该模型能够处理文本、音频、图像和视频等多种模态,并实时生成文本和自然语音。Qwen2.5-Omni-7...
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在...
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍
创建和理解3D结构在科学研究中具有重要意义,它不仅承载了丰富的物理与化学信息,还为解构复杂系统、进行模拟预测和跨学科创新提供了重要工具。随着AI技术的...
英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型
英伟达团队在GTC大会上发布了新的物理世界大模型Cosmos-Reason1,该模型专注于提升AI系统与物理世界交互的推理能力。作为Cosmos系列的一部分,Cosmos-Reason1...
OpenAI语音智能体诞生,怼脸实拍语气狂到飞起!API降到每分钟0.3美分
OpenAI最新发布的音频模型标志着语音智能体时代的正式开启。此次发布的三款模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,分别专注于...
英伟达开源通用机器人大模型—GR00T N1
全球AI领导者英伟达在“GTC 2025”开发者大会上宣布开源人形机器人通用大模型GR00T N1,该模型能够处理多模态数据,包括语言、图像和视频,适用于家务、工厂等...
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
多模态大模型在视觉理解方面表现出色,但在深度数学推理任务上往往表现不佳,尤其是参数量较小的模型。为了解决这一问题,东南大学、香港中文大学、蚂蚁集团...
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业...
单个4090就能跑,Mistral开源多模态小模型,开发者:用来构建推理模型足够香
法国AI创企Mistral AI最近开源了一款名为Mistral Small 3.1的多模态小模型,该模型在多个基准测试中表现优异,超越了Gemma 3和GPT-4o Mini等同类模型。Mistra...
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开
昆仑万维近日发布了全球首个开源的多模态推理大模型Skywork R1V(简称R1V),该模型拥有38B参数,性能直逼DeepSeek-R1,并在多项基准测试中取得了领先的成绩...