從最早的AI(人工智能)在國際象棋中戰(zhàn)勝人類開始,中國象棋、德州撲克、圍棋等智力游戲相繼淪陷,在DOTA、星際爭霸等電子游戲中也表現(xiàn)亮眼,但是AI在麻將領(lǐng)域卻一直沒有突破。

近日,微軟發(fā)布了一份關(guān)于麻將AI“Suphx(意為Super Phoenix,超級鳳凰)”的修訂版預(yù)印本文件,介紹說Suphx是一個專業(yè)十段水平的“選手”,超越了99%人類玩家,這是計算機程序首次超過麻將中大多數(shù)頂級人類玩家。麻將AI,擁有強大算力遠遠不夠
據(jù)這份公開資料顯示,Suphx于2019年3月登陸日本專業(yè)的麻將競技平臺Tenhou(天鳳),在短短幾個月內(nèi),Suphx在該平臺上與人類選手展開了5000余場四人麻將對局,達到了十段,這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智能。
據(jù)悉,天鳳是世界上最大的麻將社區(qū)之一,擁有超過35萬活躍用戶,其中不乏大量的專業(yè)麻將選手。天鳳平臺自2006年推出以來,四人麻將達到過十段的選手約有180位,而現(xiàn)役的十段人類選手也不過十幾位。
麻將被稱為不完全信息博弈,每位玩家手中最多有13張別人不可見的牌。牌墻中的14張牌對所有玩家都不可見。此外,牌桌中央還有70張牌。只有被玩家打出時,這部分牌才可見。
雖然136張麻將的排列組合結(jié)果和圍棋相比要小得多,但難點在于同一玩家兩次出牌之間,夾雜了其他3位玩家的出牌、自己的摸牌,而且還有“吃、碰、杠”都會讓牌局產(chǎn)生動態(tài)變化。
在這種規(guī)則下,玩家每做出一個選擇,接下來的牌局就可能出現(xiàn)10個以上的走向。
另外,麻將游戲的“胡牌”方式非常多。因此,想要打造一個高手麻將AI,只有強大的算力是不夠的,更需要讓AI具有直覺、預(yù)測、推理和模糊決策的能力,這也正是建立麻將人工智能模型的難點所在。Suphx的決策流程及模型架構(gòu)。
十段功力究竟是怎么修煉的
那么,Suphx是怎么解決這些問題,從而戰(zhàn)勝人類的呢?
據(jù)介紹,開始階段研究員們利用天鳳平臺的公開數(shù)據(jù)得到一個初始模型,并在模型基礎(chǔ)上用自我博弈的方式進行強化學(xué)習(xí)訓(xùn)練。研究員開發(fā)了丟牌模型、立直模型、吃牌模型、碰牌模型以及杠牌模型等五大模型,專門訓(xùn)練“超級鳳凰”的打牌策略。
這五大模型都基于深度殘差卷積神經(jīng)網(wǎng)絡(luò),并一一應(yīng)對麻將復(fù)雜的決策類型。甚至,Suphx還有一個基于規(guī)則的贏牌模型,決定在可以贏牌的時候要不要贏牌。
隨后,針對非完美信息博弈的挑戰(zhàn),Suphx創(chuàng)新性地嘗試了先知教練技術(shù)來提升強化學(xué)習(xí)的效果。
最后,再針對麻將復(fù)雜的牌面表達和計分機制,研究團隊利用全盤預(yù)測技術(shù)搭建起每局比賽和8局終盤結(jié)果之間的橋梁。
這個預(yù)測器通過精巧的設(shè)計,可以理解每局比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一局比賽中,以便對自我博弈的過程進行更加直接有效的指導(dǎo),并使得Suphx可以學(xué)會一些具有大局觀的高級技巧。智力游戲是AI研究者的最佳實驗田
從最早的AI在國際象棋中戰(zhàn)勝人類開始,AI先后攻克了中國象棋、德州撲克、圍棋、DOTA、星際爭霸等多種游戲,為什么AI研究者都喜歡挑戰(zhàn)游戲領(lǐng)域呢?
在去年的世界人工智能大會上,時任微軟全球副總裁的沈向洋表示,游戲一直是人工智能研究的最佳試驗田,訓(xùn)練游戲AI的過程可以不斷提升人工智能的算法和人工智能處理復(fù)雜問題的能力。
在現(xiàn)實世界中,金融市場預(yù)測、物流優(yōu)化等很多問題與麻將游戲有著相同的特點,包括復(fù)雜的操作、獎勵規(guī)則、信息的不完全性等。
浙江大學(xué)人工智能研究所所長吳飛也表示,很多AI的研發(fā)都是針對某個領(lǐng)域或某個具體任務(wù)進行的研究,這些AI誕生的目的當(dāng)然不僅僅在某個游戲勝過人類這么簡單,都是為了應(yīng)用到我們實際生活中去。
吳飛告訴記者:“微軟這款麻將AI所采取的策略其實和圍棋當(dāng)中的Alphago是類似的,框架還是基于強化學(xué)習(xí)、深度學(xué)習(xí)和蒙特卡洛樹搜索。只不過它是針對麻將這個具體問題進行優(yōu)化,如針對麻將中不同出牌的策略專門進行學(xué)習(xí)。
在吳飛看來,AI戰(zhàn)勝人類在大部分棋牌類游戲中都可以實現(xiàn),但這不代表現(xiàn)在的AI就比人類厲害了,因為人類行為不是單一問題的集合,實際的應(yīng)用場景比游戲要復(fù)雜得多。
“比如現(xiàn)在大家關(guān)注度比較高的自動駕駛、城市大腦,這些場景更加復(fù)雜,沒有足夠多的數(shù)據(jù),也沒有足夠準(zhǔn)確的機器語言去描述,因此目前的人工智能在實際使用中還很局限。不過這類AI的出現(xiàn)對我們解決序貫決策問題還是很有幫助的,比如對經(jīng)濟活動調(diào)整的預(yù)測和分析,來幫助經(jīng)營者作出更好的決策;在交通、物流領(lǐng)域進行效率優(yōu)化、降低成本提高收益等?!保ㄥX江晚報)