智谱放大招:大模型从「Chat」走向「Act」

AI-Agent2周前发布 geekpark
217 0 0
智谱放大招:大模型从「Chat」走向「Act」

 

文章摘要


【关 键 词】 人工智能自主Agent多模态智能助手大模型

随着人工智能技术的发展,对话功能的Chatbot正在进化为具有自主性的Agent。预计到2025年,Agent将成为技术趋势之一,至少15%的日常工作决策将由Agentic AI自主完成。Agent与生成式人工智能不同,它们是目标驱动型的,能够执行工作流程,适应、学习、迭代,并与其他系统和人类协作,端到端地完成任务。智谱CEO张鹏认为,Agent可以看作是大模型通用操作系统LLM-OS的雏形。

智谱推出的自主智能体AutoGLM能够模拟用户屏幕操作,如点击手机应用,并在浏览网页时有效辅助用户,涵盖社交、网购、地图导航和火车票订购等多个领域。AutoGLM能自主完成超过50步的复杂操作,并能跨应用程序协作执行任务,支持数十个网站的“无人驾驶”。基于视觉多模态模型的GLM-PC也进入内测阶段,致力于实现像人类一样操控计算机。

AutoGLM的最新升级使其能够自主执行复杂且多步骤的任务,跨应用处理需求,甚至在全程无人干预的情况下自动操作多平台。它还引入了“随便模式”,通过分析用户偏好和历史行为,主动为用户做出决策。智谱宣布AutoGLM启动大规模内测,并计划尽快上线面向C端用户的产品。同时,智谱清言插件也上线了AutoGLM功能,支持搜索、微博、知乎、Github等数十个网站的“无人驾驶”。

智谱还带来了基于PC的自主Agent——GLM-PC,这是在“无人驾驶”PC领域的技术探索,基于其多模态模型CogAgent开发。GLM-PC提供多项核心功能,包括帮助用户预定和参与会议,并自动发送会议总结;支持文档处理;在指定平台进行关键词搜索并完成总结;具备远程和定时操作功能;引入“隐形屏幕”模式,自主完成任务,释放屏幕使用空间。

智谱AutoGLM技术负责人刘潇指出,AutoGLM通过图形化用户交互界面来解决API标准化不足的问题,模拟人类的操作方式,只要应用界面保持用户可理解并且易于使用,智能体就能够在该界面上顺利执行任务。随着技术的不断进步,GLM-PC的能力将进一步增强,未来有望为用户提供更为高效、直观的PC操作体验。

智谱定义了大模型发展的五个阶段:L1语言能力、L2逻辑能力(多模态能力)、L3使用工具的能力、L4自我学习能力、L5探究科学规律。随着Agent能力持续提升,它们将能够驾驭越来越多的应用程序,适配多样化的操作系统,并执行日益复杂的自主操作。智谱已在芯片、操作系统OS、模型侧和应用app侧进行了一段时间的探索,并与手机厂商、PC厂商实现深度合作,在AIPC、智能助手Agent等领域有诸多成果。通过端侧芯片性能优化和端云一体架构,Agent不仅在操作系统OS和应用app上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。随着Agent技术的发展,AI与人类的互动模式将不再局限于简单的对话,未来的机器将不仅能听懂人类的指令,还能够主动思考、决策并执行任务。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2684字 | 11分钟 ]
【原文作者】 极客公园
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...