AI Agent 落地现状：成功率太低，即使用 GPT-4 也不到 15%

AI-Agent1年前 (2024)发布 Founder Park

1,802 0 0

文章摘要

在人工智能领域，大型语言模型（LLM）取得了显著的进步，其性能、准确性和稳定性都有了大幅提升。然而，这些模型的综合能力似乎还不足以支撑一个全面的AI智能体。

针对AI智能体在宣传与实际表现上的差异，有观点指出智能体在宣传中看似强大，实则现实应用中问题重重。以WebArena排行榜的基准测试为例，即便是表现最佳的模型，成功率也仅为35.8%，而如GPT-4等知名模型的成功率更是低至14.9%。

对于AI智能体的定义，业界尚无共识。一般而言，它可以被视为一个具备决策能力的高级LLM，能在环境中执行任务。目前，构建AI智能体的主要方法有单一智能体和多智能体系统两种。

实践中，AI智能体面临诸多挑战，包括可靠性问题、性能和成本考量、法律责任及用户信任等。许多AI智能体初创公司仍在等待技术突破，以便产品化。

面对过度炒作的现实，作者强调大多数AI智能体尚未准备好承担关键任务。但随着基础模型和架构的进步，人们可以期待AI智能体在实际应用中取得更多成功。

作者认为，结合严格约束的LLM、评估数据、人机协同监督和传统工程方法，可以在自动化等复杂任务中实现可靠的结果。虽然AI智能体有望自动化一些单调的工作，但在没有人类干预的情况下执行复杂任务，如自动预订假期，短期内似乎不太可能实现。在此背景下，业界应设定现实的期望，并不断探索AI智能体的最佳前进道路。