为了推动AI+游戏产业升级及人工智能研究的发展,腾讯AI Lab与王者荣耀团队联合举办的第三届腾讯开悟多智能体强化学习大赛(简称开悟大赛)决赛于近日圆满落幕。本届大赛于2022年9月1日正式启动,来自全国顶尖高校的30多支团队参赛,经过半年多的比拼,共有六支队伍进入决赛。经过激烈角逐,由世界博彩公司排名
兰旭光教授领衔的“XJTU太初”团队(队员:王宇航、戴洋、寇谦、王思哲、石昃忱,指导教师:兰旭光、陈星宇),在决赛中获得了亚军的好成绩,获得10万元奖金。
开悟大赛创新性地将人工智能科研与电子竞技结合,自创办以来就备受关注。本届赛事沿用此前面向高校的邀请赛制,并进一步扩大开放规模,清华、西交、电子科大、华中科大、南大和华南理工等30多所知名高校受邀参赛。参赛选手需要通过编写程序,利用人工智能技术,在游戏《王者荣耀》中进行对抗。参赛队伍需要在指定的时间内,在给定的资源下训练出最优模型,并最终部署好使用最优模型的AI服务器,提交系统完成1V1、3V3对局挑战。
游戏一直是人工智能最为理想的训练场之一。《王者荣耀》是一款需要玩家根据复杂多变的战场情况实时反应,制定策略的游戏,要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。
比赛过程中需要解决两个难点:首先,王者荣耀有着巨大的观察空间与动作空间,这让智能体随机探索难以得到正反馈。第二,3v3比赛时,团队之间对抗需要依靠零和博弈机制实现,但现实场景中,设置团队因子过高或者零和博弈,会让学习过程变得十分不稳定。为此,团队需要综合利用课程学习和强化学习等前沿技术,设计高效稳定的学习算法,提高智能体的团队合作能力。
因此,如何设计人工智能的行为权重、操作触发条件,以及决策是否正确的反馈机制就成为了比赛制胜的关键。而且,人工智能如果能够在如此复杂的游戏环境中,学会实时感知、分析、理解、推理、决策和行动,就可能在复杂多变的真实环境中发挥更大作用。最终,团队在兰旭光教授的指导下,分别从特征设计,奖励函数设计,网络结构设计,课程学习设计,多智能体强化学习算法设计,训练方式探索等方面入手,探索出了优秀的多智能体强化学习训练框架,在初赛和复赛都取得前四名的基础上,最终在决赛当中获得了亚军的好成绩。