标签:多模态
科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
在2025世界人工智能大会(WAIC 2025)上,上海AI实验室发布了新一代科学多模态大模型Intern-S1,标志着人工智能在科研领域的重大突破。Intern-S1不仅多模态能...
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
阶跃星辰在WAIC期间发布的新一代基础大模型Step 3,填补了市场对兼具多模态能力、强推理性能、低成本及开源特性的模型需求空缺。该模型总参数达321B,采用MoE...
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机械臂技术正从单一抓取任务向复杂自主操作迈进,其核心挑战在于感知、理解与动作控制的高效协同。近年来,视觉-语言-动作(VLA)模型的发展使机器人能够整合...
具身智能大脑+首个SaaS开源框架,智源研究院刷新10项测评基准,加速群体智能新范式
智源研究院在具身智能领域取得了显著进展,推出了RoboBrain 2.0和RoboOS 2.0两大创新技术。RoboBrain 2.0作为“通用具身大脑”,面向真实物理环境,集感知、推...
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
在人工智能迈向“多模态智能体”新时代的过程中,视觉理解、空间智能建模以及感知、认知与行动的高效整合仍是当前面临的主要挑战。IDEA研究院计算机视觉与机器...
刚刚,「吉卜力狂欢」GPT-4o功臣被挖走!华南理工女学霸曾与奥特曼同台
GPT-4o的发布引发了全球范围内的「吉卜力风格」热潮,吸引了超过1.3亿用户生成了逾7亿张图片。这一功能的成功离不开两位核心研究人员——华南理工学霸Lu Liu和...
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
新一代人工智能发展的重要方向是“情智兼备”,这是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态交互信息,深...
阿里达摩院开源多模态医学大模型—灵枢
大模型在医疗领域的应用面临三大主要难题:医疗知识覆盖不足、幻觉风险高以及推理能力欠缺。为了解决这些问题,阿里巴巴达摩院的研究团队开源了统一多模态医...
Cursor终结者?Grok 4正式登顶!马斯克扬言编程碾压,20万N卡年赚47亿美金!
Grok 4的发布标志着xAI在人工智能领域的又一次重大突破。这款通用模型不仅跳过了Grok 3.5,还带来了多个专为特定任务设计的模型,包括编码模型、多模态代理和...
高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理
在电影《银翼杀手2049》中,虚拟伴侣Joi通过全息投影与现实世界无缝互动,展现了AI在未来可能具备的高度智能和情感理解能力。然而,现实中要实现这种科幻场景...