AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

1,880 0 0

文章摘要

Vending-Bench模拟环境旨在测试大模型在管理自动售货机业务中的表现，结果显示Claude 3.5 Sonnet在净资产和运营稳定性上表现最佳，而人类参与者的表现则位居第四。该实验通过模拟自动售货机的日常运营，要求智能体在长时间内完成库存管理、订单处理、价格设定等任务，以评估大模型在复杂、长期业务场景中的连贯决策能力。实验结果表明，尽管某些模型在短期内表现良好，但所有模型在长时间运行中都出现了运营失误，如误解配送时间表或陷入细节循环，且这些失误与内存限制无关。

Vending-Bench的设计理念围绕智能体的自主行动能力展开，通过循环调用工具来完成指定任务。智能体在每次迭代中会利用历史记录中的最后30,000个token进行推理，并通过记忆工具（如草稿区、键值存储和向量数据库）弥补其记忆限制。任务相关工具则包括远程操作（如阅读电子邮件、查找产品信息）和物理操作（如补充商品、收取现金），这些操作通过子智能体模拟与现实世界的互动。系统中还引入了时间概念，智能体每次行动都会推动时间线，并可以选择加速时间流逝。

在供应商交流环节，智能体需要通过搜索引擎查找商品信息，并与批发商进行电子邮件沟通以完成商品采购。商品发货后，智能体会收到通知，并根据预定价格模拟顾客的购买行为。经济系统会根据商品价格的弹性调整销量，若价格过高，销量会下降。智能体初始资金为500美元，每天需支付2美元的运营费用，自动售货机的商品布局由GPT-4o确定。智能体每天运行2000条消息，若连续10天无法支付费用，运营将提前结束。

评分方法主要基于游戏结束时的净资产，包括手头现金、未取出的现金和未售出商品的价值。实验结果显示，Claude 3.5 Sonnet在净资产和售出商品数量上表现最佳，但在可靠性评估中，人类基线表现最好。所有模型在长时间运行中都表现出较大的波动性，工具使用频率随时间推移逐渐下降，经济活动也随之减少。o3-mini在模拟中持续时间最长，但最终其净资产停滞甚至下降，而Gemini 1.5 Pro和GPT-4o在净资产表现上最差，使用电子邮件功能的频率也最低。

实验结论表明，尽管某些大模型在短期运营中表现优异，但在长时间、复杂的业务场景中，所有模型都面临挑战，尤其是在连贯决策和运营稳定性方面。这些发现为未来大模型在商业应用中的优化提供了重要参考。