AI Agent 落地现状:成功率太低,即使用 GPT-4 也不到 15%
文章摘要
【关 键 词】 人工智能、LLM进步、现实挑战、期望管理、人机协同
在人工智能领域,大型语言模型(LLM)取得了显著的进步,其性能、准确性和稳定性都有了大幅提升。然而,这些模型的综合能力似乎还不足以支撑一个全面的AI智能体。
针对AI智能体在宣传与实际表现上的差异,有观点指出智能体在宣传中看似强大,实则现实应用中问题重重。以WebArena排行榜的基准测试为例,即便是表现最佳的模型,成功率也仅为35.8%,而如GPT-4等知名模型的成功率更是低至14.9%。
对于AI智能体的定义,业界尚无共识。一般而言,它可以被视为一个具备决策能力的高级LLM,能在环境中执行任务。目前,构建AI智能体的主要方法有单一智能体和多智能体系统两种。
实践中,AI智能体面临诸多挑战,包括可靠性问题、性能和成本考量、法律责任及用户信任等。许多AI智能体初创公司仍在等待技术突破,以便产品化。
面对过度炒作的现实,作者强调大多数AI智能体尚未准备好承担关键任务。但随着基础模型和架构的进步,人们可以期待AI智能体在实际应用中取得更多成功。
作者认为,结合严格约束的LLM、评估数据、人机协同监督和传统工程方法,可以在自动化等复杂任务中实现可靠的结果。虽然AI智能体有望自动化一些单调的工作,但在没有人类干预的情况下执行复杂任务,如自动预订假期,短期内似乎不太可能实现。在此背景下,业界应设定现实的期望,并不断探索AI智能体的最佳前进道路。
原文和模型
【原文链接】 阅读原文 [ 2480字 | 10分钟 ]
【原文作者】 Founder Park
【摘要模型】 glm-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...