魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

文章摘要
【关 键 词】 强化学习、智能助手、协作游戏、算法优化、人类模型
加州大学伯克利分校的研究团队开发了一种名为AssistanceZero的新算法,旨在通过Assistance Games框架改进AI助手的训练方式。这一方法的核心在于AI助手与用户共享奖励参数,并通过主动推断用户目标来优化行为,从而避免了传统基于人类反馈的强化学习(RLHF)中的一些固有缺陷。RLHF虽然广泛用于训练AI助手,但其存在标注者可能被误导、模型不愿提出澄清问题以及缺乏协作性等问题。Assistance Games则通过明确考虑用户目标的不确定性,激励AI助手与用户互动,以实现更优的联合性能。
研究团队在《我的世界》游戏环境中设计了一个名为Minecraft Building Assistance Game(MBAG)的基准测试,以验证AssistanceZero的有效性。MBAG的复杂性在于目标结构的分布极其广泛,可能的目标数量超过10^400个,且状态和动作空间也更大。通过MBAG,研究人员发现传统的PPO算法在目标结构未知时表现不佳,而AssistanceZero通过分离目标预测和行动选择,结合蒙特卡洛树搜索(MCTS)和神经网络,显著提升了助手的表现。AssistanceZero不仅能够有效预测目标,还能在不确定性下进行规划,展现出更高的协作性和适应性。
此外,研究团队还探索了如何开发出能准确预测人类行为的人类模型。他们发现,结合MCTS和模仿学习的方法(piKL)在MBAG中表现最佳。通过与预训练和SFT等其他训练方法的比较,AssistanceZero训练的助手在目标完成率和人类操作数量上均显著优于其他方法。特别是在与真实人类的互动中,AssistanceZero助手展现出了从纠正中学习的能力,获得了更高的实用性评分。
AssistanceZero的成功表明,Assistance Games框架在复杂环境中具有可扩展性,并可能成为训练AI助手的优越方法。这一研究不仅为AI助手的训练提供了新的思路,也为大语言模型在解决复杂问题上的应用奠定了基础。未来,基于Assistance Games的工作有望进一步提升AI助手的协作能力和适应性,推动AI技术在更广泛领域的应用。
原文和模型
【原文链接】 阅读原文 [ 4279字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★☆