AI-Agent

AI Agent,Agent

GUI Agent轨迹获取新范式:有限状态机合成无限轨迹数据,平均每条轨迹成本低至0.04美元

针对训练图形用户界面智能体时真实网页内部状态不可见导致轨迹验证困难的问题,研究团队提出了一种由有限状态机驱动的网页环境生成框架AutoWebWorld。该框架...

四道题评测 Qwen3.7-Max:从空间推理到 3D 建模,它离 Agent 更近了吗?

阿里云通义千问团队在三个月内连续发布三款旗舰大模型,最新推出的Qwen3.7-Max在多项权威评测中表现卓越,位列全球第五、国产第一。该模型在推理和编程智能体...

Agent 该怎么做真正的安全评测?

上海人工智能实验室等机构提出了一系列面向智能体安全评测与诊断的基准测试,包括ATBench及其扩展版本ATBench-Claw和ATBench-CodeX。这些研究将智能体安全评...

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%!

清华大学联合面壁智能等团队研发并开源了名为PilotDeck的智能体操作系统,旨在解决当前Agent工具在生产力应用中面临的工程化痛点。该系统通过提供独立工作舱...

我天,这个 Agent 居然开源了。

面壁智能与清华大学THUNLP实验室等机构联合开源了名为PilotDeck的智能体项目,旨在解决企业私有化部署中对易用型工具的需求。该项目的核心设计理念是将项目工...

小米MiMo要蹭着DeepSeek蹦上牌桌

小米近期宣布将MiMo-V2.5系列API进行永久降价,其定价策略直接对标DeepSeek,将大模型市场的价格竞争推向新阶段。此次降价并非单纯的常规促销,而是通过将tok...

AI 手机还没度上「蜜月」,模型厂商和手机厂商就已经开始「闹离婚」

豆包手机一代的问世标志着AI手机从单纯的应用叠加转向系统级GUI Agent解决方案,引发了整个AI手机生态的重新排位。模型厂商亲自下场制造硬件已成为全球产业共...

1400亿Agent入场,“流量”这条护城河要塌了

在支付宝AI生态大会上,蚂蚁集团高管指出,Agent时代AI服务于人且人掌握最终决策权,但参与商业交易的主体正发生根本性迁移。在Agent时代,传统的流量逻辑将...

我找到了创作领域的 Claude Code。

OmniWork是一款以AI Expert Agent为核心理念的创作类人工智能产品,其关键创新在于将各行业专家的实战经验固化到智能体中,使其具备专业的行业认知与操作能力...

在Agent大考中惨败的Claude祭出了「永久大脑」,意味着什么?

在真实的SaaS办公环境测试中,当前主流AI智能体表现出极低的任务完全通过率,暴露出处理复杂、多步骤长流程任务时的严重缺陷。这些失败主要源于长上下文导致...
1 2 3 4 175