AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AIGC动态1天前发布 AIera
98 0 0
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

 

文章摘要


【关 键 词】 AI宝可梦强化学习Transformer游戏

德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术,成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对战数据进行训练,而非传统的规则或启发式算法。研究团队利用Pokémon Showdown平台上积累的47.5万场人类对战回放数据,构建了一个离线强化学习数据集,并通过技术手段将第三方视角的回放数据转换为第一人称视角,以适应AI的训练需求。

宝可梦对战本身具有极高的复杂性,融合了国际象棋的长远策略规划和扑克牌的未知信息与随机性,同时涉及大量的宝可梦、招式、特性和规则。这使得AI需要在信息不完全、策略博弈的环境中,像下围棋一样计算每一步出招和换人。研究团队通过行为克隆和离线强化学习的方法,训练了多个不同规模的智能体,其中最大的模型参数达到2亿。这些智能体通过模仿学习、离线强化学习以及自我对战数据的微调,逐步提升了其决策能力。

最终,该AI智能体在Pokémon Showdown的天梯服务器中成功进入了全球活跃玩家的前10%,并登上了排行榜。这一成就不仅展示了AI在复杂游戏环境中的潜力,也为数据驱动的游戏AI研究提供了新的方向。研究团队认为,这种技术不仅适用于游戏,未来还可以应用于更复杂的现实任务中。此外,通过进一步优化训练策略和大规模自我对战技术,AI智能体有望在更多领域实现超越人类的表现。

从技术角度来看,这项研究展示了强化学习、模仿学习、大模型训练和数据重构的完整链路,为AI在复杂任务中的应用提供了新的思路。

原文和模型


【原文链接】 阅读原文 [ 1689字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...