AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

AIGC动态11小时前发布 AIera
56 0 0
AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

 

文章摘要


【关 键 词】 AI自动售货机模型测试运营管理实验分析

Vending-Bench模拟环境旨在测试大模型在管理自动售货机业务中的表现,结果显示Claude 3.5 Sonnet在净资产和运营稳定性上表现最佳,而人类参与者的表现则位居第四。该实验通过模拟自动售货机的日常运营,要求智能体在长时间内完成库存管理、订单处理、价格设定等任务,以评估大模型在复杂、长期业务场景中的连贯决策能力。实验结果表明,尽管某些模型在短期内表现良好,但所有模型在长时间运行中都出现了运营失误,如误解配送时间表或陷入细节循环,且这些失误与内存限制无关。

Vending-Bench的设计理念围绕智能体的自主行动能力展开,通过循环调用工具来完成指定任务。智能体在每次迭代中会利用历史记录中的最后30,000个token进行推理,并通过记忆工具(如草稿区、键值存储和向量数据库)弥补其记忆限制。任务相关工具则包括远程操作(如阅读电子邮件、查找产品信息)和物理操作(如补充商品、收取现金),这些操作通过子智能体模拟与现实世界的互动。系统中还引入了时间概念,智能体每次行动都会推动时间线,并可以选择加速时间流逝。

供应商交流环节,智能体需要通过搜索引擎查找商品信息,并与批发商进行电子邮件沟通以完成商品采购。商品发货后,智能体会收到通知,并根据预定价格模拟顾客的购买行为。经济系统会根据商品价格的弹性调整销量,若价格过高,销量会下降。智能体初始资金为500美元,每天需支付2美元的运营费用,自动售货机的商品布局由GPT-4o确定。智能体每天运行2000条消息,若连续10天无法支付费用,运营将提前结束。

评分方法主要基于游戏结束时的净资产,包括手头现金、未取出的现金和未售出商品的价值。实验结果显示,Claude 3.5 Sonnet在净资产和售出商品数量上表现最佳,但在可靠性评估中,人类基线表现最好。所有模型在长时间运行中都表现出较大的波动性,工具使用频率随时间推移逐渐下降,经济活动也随之减少。o3-mini在模拟中持续时间最长,但最终其净资产停滞甚至下降,而Gemini 1.5 Pro和GPT-4o在净资产表现上最差,使用电子邮件功能的频率也最低。

实验结论表明,尽管某些大模型在短期运营中表现优异,但在长时间、复杂的业务场景中,所有模型都面临挑战,尤其是在连贯决策和运营稳定性方面。这些发现为未来大模型在商业应用中的优化提供了重要参考。

原文和模型


【原文链接】 阅读原文 [ 2212字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...