标签:多模态

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

创建和理解3D结构在科学研究中具有重要意义,它不仅承载了丰富的物理与化学信息,还为解构复杂系统、进行模拟预测和跨学科创新提供了重要工具。随着AI技术的...

英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

英伟达团队在GTC大会上发布了新的物理世界大模型Cosmos-Reason1,该模型专注于提升AI系统与物理世界交互的推理能力。作为Cosmos系列的一部分,Cosmos-Reason1...

OpenAI语音智能体诞生,怼脸实拍语气狂到飞起!API降到每分钟0.3美分

OpenAI最新发布的音频模型标志着语音智能体时代的正式开启。此次发布的三款模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,分别专注于...

英伟达开源通用机器人大模型—GR00T N1

全球AI领导者英伟达在“GTC 2025”开发者大会上宣布开源人形机器人通用大模型GR00T N1,该模型能够处理多模态数据,包括语言、图像和视频,适用于家务、工厂等...

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

多模态大模型在视觉理解方面表现出色,但在深度数学推理任务上往往表现不佳,尤其是参数量较小的模型。为了解决这一问题,东南大学、香港中文大学、蚂蚁集团...

多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业...

单个4090就能跑,Mistral开源多模态小模型,开发者:用来构建推理模型足够香

法国AI创企Mistral AI最近开源了一款名为Mistral Small 3.1的多模态小模型,该模型在多个基准测试中表现优异,超越了Gemma 3和GPT-4o Mini等同类模型。Mistra...

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

昆仑万维近日发布了全球首个开源的多模态推理大模型Skywork R1V(简称R1V),该模型拥有38B参数,性能直逼DeepSeek-R1,并在多项基准测试中取得了领先的成绩...

招生信息 | 人大信院 AIM3 实验室招收人工智能方向学生!

AIM3实验室隶属于中国人民大学信息学院计算机系的感知与交互智能计算研究室,专注于多模态智能计算领域的研究。实验室当前的研究方向包括大语言模型、多模态...

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

百度在文心一言两周年之际,推出了两款新模型——文心大模型4.5和文心大模型X1,并宣布免费向用户开放。这一消息迅速在海外社交媒体上引发热议,尤其是关于是否...
1 2 3 27