智谱放大招：大模型从「Chat」走向「Act」

AI-Agent1年前 (2024)发布 geekpark

2,886 0 0

文章摘要

随着人工智能技术的发展，对话功能的Chatbot正在进化为具有自主性的Agent。预计到2025年，Agent将成为技术趋势之一，至少15%的日常工作决策将由Agentic AI自主完成。Agent与生成式人工智能不同，它们是目标驱动型的，能够执行工作流程，适应、学习、迭代，并与其他系统和人类协作，端到端地完成任务。智谱CEO张鹏认为，Agent可以看作是大模型通用操作系统LLM-OS的雏形。

智谱推出的自主智能体AutoGLM能够模拟用户屏幕操作，如点击手机应用，并在浏览网页时有效辅助用户，涵盖社交、网购、地图导航和火车票订购等多个领域。AutoGLM能自主完成超过50步的复杂操作，并能跨应用程序协作执行任务，支持数十个网站的“无人驾驶”。基于视觉多模态模型的GLM-PC也进入内测阶段，致力于实现像人类一样操控计算机。

AutoGLM的最新升级使其能够自主执行复杂且多步骤的任务，跨应用处理需求，甚至在全程无人干预的情况下自动操作多平台。它还引入了“随便模式”，通过分析用户偏好和历史行为，主动为用户做出决策。智谱宣布AutoGLM启动大规模内测，并计划尽快上线面向C端用户的产品。同时，智谱清言插件也上线了AutoGLM功能，支持搜索、微博、知乎、Github等数十个网站的“无人驾驶”。

智谱还带来了基于PC的自主Agent——GLM-PC，这是在“无人驾驶”PC领域的技术探索，基于其多模态模型CogAgent开发。GLM-PC提供多项核心功能，包括帮助用户预定和参与会议，并自动发送会议总结；支持文档处理；在指定平台进行关键词搜索并完成总结；具备远程和定时操作功能；引入“隐形屏幕”模式，自主完成任务，释放屏幕使用空间。

智谱AutoGLM技术负责人刘潇指出，AutoGLM通过图形化用户交互界面来解决API标准化不足的问题，模拟人类的操作方式，只要应用界面保持用户可理解并且易于使用，智能体就能够在该界面上顺利执行任务。随着技术的不断进步，GLM-PC的能力将进一步增强，未来有望为用户提供更为高效、直观的PC操作体验。

智谱定义了大模型发展的五个阶段：L1语言能力、L2逻辑能力（多模态能力）、L3使用工具的能力、L4自我学习能力、L5探究科学规律。随着Agent能力持续提升，它们将能够驾驭越来越多的应用程序，适配多样化的操作系统，并执行日益复杂的自主操作。智谱已在芯片、操作系统OS、模型侧和应用app侧进行了一段时间的探索，并与手机厂商、PC厂商实现深度合作，在AIPC、智能助手Agent等领域有诸多成果。通过端侧芯片性能优化和端云一体架构，Agent不仅在操作系统OS和应用app上实现用户体验变革，还能将其推广到各类智能设备上，实现基于大模型的互联互通。随着Agent技术的发展，AI与人类的互动模式将不再局限于简单的对话，未来的机器将不仅能听懂人类的指令，还能够主动思考、决策并执行任务。