AI 能夠像人類一樣暢玩競(jìng)技游戲已經(jīng)不是什么大新聞了,但想讓它玩得比絕大部分人都要好,可不是一件容易的事。
開(kāi)發(fā)出 AlphaGo 的人工智能研究機(jī)構(gòu)?DeepMind?就曾做過(guò)數(shù)次實(shí)驗(yàn),讓 AI 連續(xù)訓(xùn)練數(shù)十天后達(dá)到職業(yè)玩家的水平,并在《雷神之錘 3》、《Dota 2》和《星際爭(zhēng)霸 2》等這類競(jìng)技游戲中和真人展開(kāi)對(duì)抗。
今年 1 月份,DeepMind 對(duì)外宣布其游戲類人工智能 AlphaStar 在《星際爭(zhēng)霸 2》游戲戰(zhàn)勝了兩名人類職業(yè)玩家,錄像顯示這兩個(gè)人都以 0-5 輸給了 AlphaStar。
不過(guò),部分人認(rèn)為這場(chǎng)對(duì)抗對(duì)人類并不公平,因?yàn)殇浵裰兴麄儼l(fā)現(xiàn),AlphaStar 做出了很多超出極限的微操作,這意味著它能在同一時(shí)間維度內(nèi)下達(dá)更多復(fù)雜指令。
想要讓職業(yè)玩家們輸?shù)梅?,DeepMind 在過(guò)去半年里做出了更多改進(jìn)。
▲ 圖片來(lái)自:Nature
本周三,DeepMind 團(tuán)隊(duì)又一次在《自然》雜志上發(fā)表了有關(guān) AlphaStar 的新研究進(jìn)展。他們表示,這位并沒(méi)有實(shí)體的人工智能選手已經(jīng)達(dá)到了天梯對(duì)戰(zhàn)的「宗師」級(jí)別。
該段位在《星際爭(zhēng)霸 2》游戲中有著特殊含義,只有排名在前 200 位的玩家才能獲得這個(gè)稱號(hào),同時(shí)也意味著 AlphaStar?超過(guò)了全球 99.8% 的人類選手。
DeepMind 會(huì)選擇《星際爭(zhēng)霸 2》作為測(cè)試 AI 的游戲,和它的即時(shí)戰(zhàn)略玩法有不少關(guān)系。該游戲中會(huì)分為人族、神族和蟲(chóng)族三個(gè)派系,每個(gè)派系都有多個(gè)可供操作的建筑、兵種,每局游戲也都需要經(jīng)歷資源采集、科技發(fā)展和實(shí)時(shí)戰(zhàn)斗等幾個(gè)流程。
所以,和之前 AlphaGo 之前挑戰(zhàn)過(guò)的棋類項(xiàng)目不同,AlphaStar 很難在《星際爭(zhēng)霸 2》中對(duì)另一方玩家的進(jìn)攻手段做出預(yù)測(cè),它自己也需要更多戰(zhàn)術(shù)、戰(zhàn)略層面的考慮,以及更高效的實(shí)時(shí)反饋能力。
在這次新研究中,DeepMind 除了繼續(xù)沿用之前的模仿學(xué)習(xí)人類玩家的策略手段外,還加入了一項(xiàng)名為「聯(lián)盟」的新訓(xùn)練方式。
簡(jiǎn)單來(lái)說(shuō),DeepMind 引入了多個(gè)虛擬的「陪練選手」,AlphaStar 會(huì)和它們逐一展開(kāi)對(duì)抗,但「陪練選手」的目的是盡可能地找出 AlphaStar 在對(duì)戰(zhàn)中所暴露出來(lái)的「缺陷」,這就迫使雙方都需要采取比以前更多的策略手段,從而變得比之前更強(qiáng)。
同時(shí),為了對(duì)應(yīng)游戲中人族、神族和蟲(chóng)族三個(gè)派系,開(kāi)發(fā)團(tuán)隊(duì)還分別訓(xùn)練了三個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),每一個(gè)都會(huì)根據(jù)種族特性學(xué)習(xí)獨(dú)特的戰(zhàn)術(shù)風(fēng)格。
訓(xùn)練完畢后,DeepMind 才將 AlphaStar 投放至《星際爭(zhēng)霸 2》的天梯對(duì)戰(zhàn)中。每次對(duì)戰(zhàn)開(kāi)始前,AlphaStar 并不會(huì)告知對(duì)方的身份,以避免它的人類對(duì)手采取某些針對(duì)性的策略,只有等到比賽結(jié)束后才會(huì)說(shuō)出來(lái)。
「AlphaStar 只需要像一個(gè)正常人來(lái)玩游戲,而不是作為一名超人?!笵eepMind 團(tuán)隊(duì)的一員奧里奧爾·維尼亞爾斯(Oriol Vinyals)接受 《衛(wèi)報(bào)》采訪時(shí)說(shuō)道。
同時(shí),為了不再出現(xiàn)和上次比賽一樣的「開(kāi)掛」?fàn)幾h,這次 DeepMind 還對(duì) AlphaStar 做了不少限制。
比如說(shuō),AlphaStar 會(huì)和人類選手擁有一樣的視野,只能看到顯示屏內(nèi)的信息,而不會(huì)掌握整個(gè)地圖的動(dòng)向;同時(shí)它在操作上也不會(huì)超過(guò)人類玩家鼠標(biāo)點(diǎn)按次數(shù)的極限值。
然而,哪怕是在這樣的條件下,AlphaStar 仍然戰(zhàn)勝了絕大部分《星際爭(zhēng)霸 2》玩家。按照 DeepMind 的說(shuō)法,目前依舊有 0.2% 左右的人有機(jī)會(huì)在對(duì)戰(zhàn)中戰(zhàn)勝 AlphaStar,大概是 50-100 人左右。
▲ 圖片來(lái)自:Inverse
「比起擊敗 99.8% 的人,我們更看重的是那 0.2% 的玩家,他們讓我們看到了 AlphaStar 存在的限制,這會(huì)激發(fā)出新的研究成果,并推動(dòng)我們?cè)诂F(xiàn)實(shí)世界其它領(lǐng)域上的研究。」奧里奧爾說(shuō)道。
DeepMind 還在博客文章中表示,團(tuán)隊(duì)的最終目標(biāo)仍然是打造出「通用人工智能」,即一個(gè)能根據(jù)不同狀況自動(dòng)調(diào)整對(duì)策的人工智能系統(tǒng)。他們也承諾,不會(huì)將 AlphaStar 引入到任何一個(gè)軍事項(xiàng)目中。
題圖來(lái)源:Eurogamer