網(wǎng)易互娛AI Lab在國際人工智能頂級(jí)會(huì)議NeurIPS 2022 Neural MMO挑戰(zhàn)賽中,包攬了所有賽事指標(biāo)的第一名,以總分領(lǐng)先第二名129%的優(yōu)勢(shì)奪得冠軍,擊敗了來自全球35個(gè)國家和地區(qū)的頂尖隊(duì)伍。
【資料圖】
比賽概況
近日,國際人工智能頂級(jí)會(huì)議NeurIPS 2022在美國新奧爾良落下帷幕,在本屆會(huì)議舉辦的Neural MMO挑戰(zhàn)賽中,網(wǎng)易互娛AI Lab從來自全球35個(gè)國家和地區(qū)的134支隊(duì)伍中脫穎而出,以領(lǐng)先第二名得分129%的巨大優(yōu)勢(shì)奪得冠軍,并強(qiáng)勢(shì)包攬了所有賽事指標(biāo)的第一名。這是網(wǎng)易互娛AI Lab研發(fā)的Athena AI在連續(xù)奪得多項(xiàng)國際冠軍后,再次登頂國際AI競賽,同時(shí)也是繼去年在NeurIPS MineRL挑戰(zhàn)賽上首次教會(huì)AI在《我的世界》中挖到鉆石后,連續(xù)兩年獲得NeurIPS競賽冠軍,彰顯了網(wǎng)易互娛AI Lab在人工智能領(lǐng)域的綜合技術(shù)實(shí)力。
本屆比賽由超參數(shù)科技、麻省理工學(xué)院、清華大學(xué)深圳研究院和AICrowd聯(lián)合舉辦,在今年的NeurIPS(Conference and Workshop on Neural Information Processing Systems)大會(huì)中舉行。該會(huì)議是人工智能領(lǐng)域最重要的學(xué)術(shù)會(huì)議之一,和ICLR、ICML并稱為機(jī)器學(xué)習(xí)領(lǐng)域的三大頂級(jí)會(huì)議。本屆比賽是Neural MMO系列挑戰(zhàn)賽的第三屆,由于新引入了裝備系統(tǒng)、交易系統(tǒng)和毒圈機(jī)制,且地形環(huán)境也變得更為復(fù)雜,因此比賽難度相較于前兩屆大幅提升。本屆比賽在兩個(gè)半月的賽程內(nèi)吸引了來自中國、美國、英國、法國、俄羅斯、加拿大、日本等世界各地的學(xué)術(shù)界和工業(yè)界的隊(duì)伍,其中包括網(wǎng)易、騰訊、嗶哩嗶哩、InstaDeep、twosense.ai、CVTE、清華大學(xué)、浙江大學(xué)、香港中文大學(xué)、波士頓大學(xué)、愛丁堡大學(xué)、京都大學(xué)等,也包括了上一屆Neural MMO挑戰(zhàn)賽的冠軍。
規(guī)則介紹
本次比賽所依托的環(huán)境Neural MMO最初由OpenAI于2019年發(fā)布,現(xiàn)由麻省理工學(xué)院繼續(xù)開發(fā)和維護(hù),是一個(gè)用于大規(guī)模多智能體研究的平臺(tái)。Neural MMO的設(shè)計(jì)靈感來自于大型多人在線角色扮演游戲(MMORPG),模擬出了一個(gè)在廣闊且持續(xù)的環(huán)境中支持可變數(shù)量玩家互相競爭的大型生態(tài)系統(tǒng)。不同于Dota、星際爭霸等AI已經(jīng)取得領(lǐng)先人類水平的游戲場(chǎng)景,Neural MMO中的AI設(shè)計(jì)不光要考慮隊(duì)伍內(nèi)大量智能體之間的配合,還要考慮如何與其他十幾支甚至更多的隊(duì)伍進(jìn)行競爭。
本次比賽的場(chǎng)景中,一共有128個(gè)智能體,分成16支隊(duì)伍,每支隊(duì)伍由8個(gè)智能體組成。每位參賽者需要控制其中的一支隊(duì)伍在128x128大小的地圖上和其他15個(gè)參賽者的隊(duì)伍進(jìn)行對(duì)抗。比賽持續(xù)時(shí)間為1024步,智能體在每一步中可以同時(shí)執(zhí)行多種操作,如移動(dòng)、攻擊目標(biāo)選擇、攻擊類型選擇、背包物品使用、從市場(chǎng)上購買物品、出售物品并對(duì)其進(jìn)行定價(jià)等。智能體可發(fā)起的攻擊類型包括近戰(zhàn)攻擊、遠(yuǎn)程攻擊和魔法攻擊,三種類型為互相克制的關(guān)系。智能體還可以收集對(duì)應(yīng)的武器和彈藥來提升攻擊力,同時(shí)也可以收集頭盔胸甲等裝備來提升的防御力。比賽開始后,每支隊(duì)伍會(huì)隨機(jī)出生于地圖邊緣,隨著比賽進(jìn)行,逐漸縮小的毒圈會(huì)迫使所有智能體向地圖中心聚集,爆發(fā)更加激烈的對(duì)抗。每個(gè)智能體除了需要補(bǔ)充收集食物和水以保證基本生存外,還需要考慮很多復(fù)雜的長期決策問題,例如遇到敵人時(shí)判斷是進(jìn)攻還是逃跑、隊(duì)友遇到危險(xiǎn)時(shí)自己應(yīng)該馬上趕去幫忙還是繼續(xù)擊殺附近的NPC、如何找到進(jìn)圈通道、背包裝滿后到底是賣掉彈藥還是賣掉回復(fù)藥水等等。
最終戰(zhàn)況
比賽最終的排名由參賽隊(duì)伍之間互相對(duì)抗(PvP)決定,每支隊(duì)伍的得分由生存分和擊殺分兩部分組成,其中生存分主要根據(jù)隊(duì)伍內(nèi)存活到最后的智能體數(shù)量決定,存活的數(shù)量越多得分越高,而擊殺分則是根據(jù)全隊(duì)擊殺敵方智能體的數(shù)量乘以0.5計(jì)算得到。來自網(wǎng)易互娛AI Lab的隊(duì)伍realikun在最終的PvP對(duì)抗中以8.86的生存分、19.18的擊殺分,總分28.04分奪得冠軍,分?jǐn)?shù)甚至超越了第二三名的得分總和。值得一提的是,PvP環(huán)節(jié)中最初還額外設(shè)置了兩個(gè)特別獎(jiǎng)項(xiàng),分別為坦克獎(jiǎng)——用于獎(jiǎng)勵(lì)場(chǎng)均承受傷害最高的隊(duì)伍,和打錢獎(jiǎng)——用于獎(jiǎng)勵(lì)每局平均獲得金錢數(shù)量最多的隊(duì)伍。比賽初期大家普遍認(rèn)為注重生存和擊殺方面的隊(duì)伍是難以承受更多傷害或是獲取更多金錢的,獎(jiǎng)項(xiàng)的設(shè)立旨在鼓勵(lì)比賽中涌現(xiàn)出更加多樣化的策略。但從PvP的結(jié)果上看,網(wǎng)易互娛AI Lab最終同時(shí)包攬了生存、擊殺、打錢、承傷所有四項(xiàng)賽事數(shù)據(jù)的第一名。
Final PvP 排行榜
另外比賽還設(shè)置了兩個(gè)PvE環(huán)節(jié),用于幫助選手們?cè)赑vP前能有一個(gè)穩(wěn)定的評(píng)估智能體水平的環(huán)境。網(wǎng)易互娛AI Lab也同樣分別以63.50分和25.35分的分?jǐn)?shù)大幅領(lǐng)先其他隊(duì)伍占據(jù)榜首。在PvE Stage 1中,智能體需要同其他15支隊(duì)伍共120名由規(guī)則控制的智能體進(jìn)行對(duì)抗,網(wǎng)易互娛AI Lab在保證獲得最高生存分的情況下,每場(chǎng)平均擊殺了其中107名敵方智能體。在PvE Stage 2中,其他15支隊(duì)伍的智能體由主辦方訓(xùn)練的神經(jīng)網(wǎng)絡(luò)控制,強(qiáng)度相較于上一階段大幅提升,但網(wǎng)易互娛AI Lab在第二階段發(fā)布后僅用六天時(shí)間就達(dá)到了Top1 ratio 1.0(在每場(chǎng)16支隊(duì)伍中排名第一的概率為100%)的成績,并一路占據(jù)榜首至比賽結(jié)束。
PvE Stage 1 排行榜
PvE Stage 2排行榜
方案介紹
本次比賽中,網(wǎng)易互娛AI Lab整體采用了深度強(qiáng)化學(xué)習(xí)和規(guī)則相結(jié)合的方式構(gòu)建Neural MMO版Athena AI智能體。其中強(qiáng)化學(xué)習(xí)部分使用了PPO(近端優(yōu)化算法)在CTRL(Centralized Training based Reinforcement Learning)模式下進(jìn)行自博弈訓(xùn)練,主要控制智能體在移動(dòng)、選敵、補(bǔ)給道具的使用和交易這些方面做出決策,同時(shí)使用基于規(guī)則的方法控制了攻擊方式、非補(bǔ)給道具的使用和交易、出價(jià)等,這樣設(shè)計(jì)是因?yàn)椋?/p>
1.Neural MMO中攻擊方式涉及到智能體的職業(yè)成長,一旦選擇一種主戰(zhàn)攻擊類型后再更換其他攻擊方式收益較低;
2.使用盔甲、武器等非補(bǔ)給品也沒有涉及到太過復(fù)雜的時(shí)機(jī)選擇問題;
3.交易行為中尤其是出價(jià)所包含的動(dòng)作空間巨大,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到正常的交易行為所需的訓(xùn)練代價(jià)遠(yuǎn)遠(yuǎn)超過移動(dòng)、攻擊等,但是對(duì)于最終智能體的強(qiáng)度提升卻十分有限,因?yàn)樵贜eural MMO中取得勝利最為關(guān)鍵的要素是團(tuán)隊(duì)配合,而智能體之間的配合在很大程度上并不是依靠交易來完成的。
針對(duì)復(fù)雜的游戲機(jī)制,網(wǎng)易互娛AI Lab也相應(yīng)地為Athena AI設(shè)計(jì)了精細(xì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。如圖所示,網(wǎng)絡(luò)主要由特征編碼器、隱變量交互結(jié)構(gòu)以及動(dòng)作解碼器三部分組成,其中隱變量交互結(jié)構(gòu)中的Transformer和LSTM兩大模塊占據(jù)了整個(gè)網(wǎng)絡(luò)的絕大部分參數(shù)量。隊(duì)伍中每個(gè)智能體均由參數(shù)相同的一份網(wǎng)絡(luò)副本所控制,網(wǎng)絡(luò)根據(jù)不同的輸入而使每個(gè)智能體做出各自的決策。
神經(jīng)網(wǎng)絡(luò)架構(gòu)圖
特征編碼器將每個(gè)智能體的生命值和等級(jí)之類的標(biāo)量特征、周圍地圖信息、歷史動(dòng)作信息、裝備信息、動(dòng)作掩碼以及游戲進(jìn)度等信息作為輸入,其中部分特征會(huì)經(jīng)過一些如ResNet的子編碼器進(jìn)行總結(jié)抽象后再和其他特征拼接輸出。
隱變量交互結(jié)構(gòu)是網(wǎng)絡(luò)的核心部分,其中Transformer結(jié)構(gòu)將每個(gè)智能體同其他友方單位、敵方單位和NPC利用自注意機(jī)制進(jìn)行充分的特征交互,是增進(jìn)智能體團(tuán)隊(duì)配合能力的重要組件,而LSTM結(jié)構(gòu)通過引入歷史特征進(jìn)行交互,從一定程度上解決了Neural MMO中部分可觀測(cè)的問題。
動(dòng)作解碼器將LSTM的輸出分別映射為四種動(dòng)作的選擇,包括移動(dòng)、目標(biāo)選取、裝備使用和售賣。四種動(dòng)作均通過PPO分別獨(dú)立優(yōu)化。此外訓(xùn)練過程中還會(huì)將所有智能體的LSTM輸出經(jīng)平均池化后映射為一個(gè)聯(lián)合的價(jià)值估計(jì),使智能體具有團(tuán)隊(duì)意識(shí)。
此外為了進(jìn)一步增強(qiáng)團(tuán)隊(duì)配合以及歷史信息的使用,網(wǎng)易互娛AI Lab將表示智能體視野的二維特征大小從15x15擴(kuò)充至了25x25,擴(kuò)充的部分由來自隊(duì)友的視野以及過去探索得到的信息進(jìn)行填充,同時(shí)在原有的地形信息上,還額外設(shè)計(jì)了足跡、戰(zhàn)爭迷霧、毒圈信息等共計(jì)7個(gè)通道增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。
作為ResNet輸入特征的7個(gè)通道
網(wǎng)易互娛AI Lab使用了自研的分布式深度強(qiáng)化學(xué)習(xí)框架進(jìn)行Athena AI的訓(xùn)練,該框架不但訓(xùn)練高效,也能支持同時(shí)模擬和數(shù)百種不同風(fēng)格的對(duì)手進(jìn)行對(duì)戰(zhàn)的場(chǎng)景,因此能夠在此次比賽中面對(duì)各種未知對(duì)手的情況下穩(wěn)定取勝。相較于其他參賽隊(duì)伍,網(wǎng)易互娛AI Lab的智能體也表現(xiàn)出了更加多樣的策略,例如吃雞類游戲中玩家經(jīng)常使用的卡圈、堵圈以及借助地形完成十字圍殺等高級(jí)戰(zhàn)術(shù)。
值得一提的是,本次比賽中大部分隊(duì)伍都會(huì)攜帶工具和彈藥,分別在智能體靠近資源點(diǎn)時(shí)或接近敵方智能體時(shí)使用。得益于自研框架強(qiáng)大的平衡性測(cè)試功能,網(wǎng)易互娛AI Lab發(fā)現(xiàn)由于每種等級(jí)的彈藥和工具都會(huì)占用一格物品欄,但由于Neural MMO中數(shù)值設(shè)計(jì)的原因這些道具帶來的提升十分有限,導(dǎo)致在和敵方智能體對(duì)拼時(shí)反而會(huì)因?yàn)闆]有攜帶足夠的補(bǔ)給品率先陣亡。而每件補(bǔ)給道具雖然也要單獨(dú)占用一格物品欄,但是能提供非??捎^的回復(fù)能力。于是在比賽后期,網(wǎng)易互娛AI Lab大膽地放棄了比賽中主流的裝備選擇策略,轉(zhuǎn)而讓智能體攜帶更多回復(fù)道具,大幅提升了生存能力。
展望未來,我們相信AI技術(shù)可以讓MMO中的每一個(gè)游戲角色都擁有與真實(shí)世界邏輯更相符合的行為舉止,而通過Neural MMO這個(gè)試驗(yàn)場(chǎng)我們也欣喜地看到了AI不僅能夠掌握基本的資源獲取、裝備選擇,也能借助地形完成十字圍殺、卡圈、堵圈等高級(jí)戰(zhàn)術(shù),相信在不遠(yuǎn)的未來我們就能看到AI技術(shù)在MMO或是其他品類游戲中的更多應(yīng)用。
關(guān)于互娛AI Lab和Athena AI系統(tǒng)
網(wǎng)易互娛AI Lab成立于2017年,隸屬于網(wǎng)易互動(dòng)娛樂事業(yè)群,是游戲行業(yè)領(lǐng)先的人工智能實(shí)驗(yàn)室。AI Lab所提供的人工智能服務(wù)包括計(jì)算機(jī)視覺、自然語言處理、語音信號(hào)處理、游戲AI多個(gè)方面。目前技術(shù)已應(yīng)用于網(wǎng)易互娛旗下多款熱門游戲,如《夢(mèng)幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西游》、《荒野行動(dòng)》等等。
Athena AI是互娛AI Lab研發(fā)的游戲AI系統(tǒng),應(yīng)用了前沿的模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、進(jìn)化學(xué)習(xí)算法實(shí)現(xiàn)游戲中的競技對(duì)戰(zhàn),友好陪玩,平衡性測(cè)試等AI需求。目前已落地《夢(mèng)幻西游》《哈利波特:魔法覺醒》《荒野行動(dòng)》《顛峰極速》《決戰(zhàn)!平安京》《指環(huán)王》《百聞牌》《網(wǎng)易棋牌》《超凡先鋒》等多款游戲,涵蓋棋牌、RPG、SLG、體育、卡牌、TPS等多種類的游戲。
參考資料:
[1]NeurIPS 2022 The Neural MMO Challenge 比賽主頁
[2]Neural MMO: A Massively Multiagent Game Environment, OpenAI blog
[3]The Neural MMO Platform for Massively Multiagent Research
[4]Neural MMO: A massively multiagent game environment for training and evaluating intelligent agents
[5]Neural MMO Decumentation
[6]Neural MMO GitHub Repository
[7]OpenAI開發(fā)AI版《文明》,一塊CPU就能重現(xiàn)AI生存戰(zhàn)爭史
[8]在游戲世界組建一支AI團(tuán)隊(duì),超參數(shù)的多智能體「大亂斗」開賽
[9]讓AI小隊(duì)混戰(zhàn)跑毒經(jīng)商,還設(shè)“坦克獎(jiǎng)”,NeurIPS這比賽真不是打游戲?
[10]1000個(gè)教AI打電競的人