标签:多模态
「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
夸克近期推出的「拍照问夸克」功能,标志着AI多模态入口的进一步升级。通过将相机作为与AI交互的核心工具,夸克AI相机不仅简化了用户的操作流程,还提供了更...
英伟达开源「描述一切」模型,拿下7个基准SOTA
为了实现这些功能,DAM 采用了两个关键创新:焦点提示(focal prompt)和局部视觉骨干网络(localized vision backbone)。焦点提示通过提供完整图像和目标区...
“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态
在百度 Create 开发者大会上,百度创始人李彦宏发布了两款新的大模型——文心大模型 4.5 Turbo 和文心大模型 X1 Turbo,并宣布了一系列支持开发者全面拥抱 MCP...
最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek
百度最新发布的两款大模型——文心大模型4.5 Turbo和文心大模型X1 Turbo,标志着其在多模态、深度推理和低成本方面的显著突破。这两款模型不仅在性能上超越了市...
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI
昆仑万维最新发布的Skywork-R1V 2.0版本,标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型,R1V 2.0不仅在技术上实现了显著进化,...
字节跳动开源多模态AI Agent—UI-TARS-1.5
字节跳动开源了多模态AI Agent UI-TARS的最新1.5版本,该版本在多个基准测试中表现出色,展现了其强大的通用性和扩展能力。在计算机使用方面,UI-TARS-1.5在O...
复旦大学团队提出跨模态越狱防御新架构 BlueSuffix
复旦大学联合香港城市大学、新加坡管理大学的研究团队在视觉-语言模型安全防御领域取得重要进展,提出了一种基于强化微调的黑盒防御新架构——BlueSuffix。该架...
微软上线两款新模型:增强RAG和AI Agent
微软在Azure AI Foundry上线了Cohere的Embed 4和Command A两款新模型,旨在增强RAG(检索增强生成)和AI Agent的功能。Embed 4是一款多模态嵌入模型,支持超...
字节按下 AI Agent 加速键
2025年初,随着DeepSeek、Manus等AI产品的崛起,大厂们正在重新调整战略,以应对AI技术的快速演进。过去两个月里,AI领域出现了多个现象级产品,如DeepSeek-R...
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压
卡内基梅隆大学(CMU)的研究团队针对公务员考试中的逻辑推理题,设计了一套名为VisualPuzzles的视觉推理基准测试,旨在评估多模态大模型的推理能力。该测试...