DeepMind AI碾壓《星際爭霸2》人類職業(yè)玩家仍有改進余地
在DeepMind的倫敦總部,人們正在觀看DeepMind的AI與人類職業(yè)玩家對決
網(wǎng)易智能訊1月25日消息,谷歌旗下DeepMind開發(fā)的人工智能AIphaStar在《星際爭霸2》(Starcraft II)中擊敗了兩位人類職業(yè)玩家,這是AI領域的新里程碑。在YouTube和Twitch上播放的比賽中,AI玩家在連續(xù)10局中反復擊敗人類。而在最后的對決中,職業(yè)選手格里戈爾茲·“曼娜”·科明茲(Grzegorz“MaNa” Komincz)為人類贏得了唯一的勝利。
相比人類玩家,AI的優(yōu)劣勢很明顯
與兄弟AI AIphago登頂?shù)膰逅煌氖?,《星際爭霸2》是不完美信息系統(tǒng),有著阻礙信息順利獲取的戰(zhàn)爭迷霧,除此之外,操作的單位數(shù)量和頻率較大,且存在多線作戰(zhàn),需要同時兼顧后方經(jīng)營,和前方多線戰(zhàn)事。顯然,在多線決策方面AI的優(yōu)勢要比線性思維的人類要大得多。
Atari、圍棋和星際爭霸2的比較
DeepMind的研究聯(lián)席負責人戴維·西爾弗(David Silver)在賽后表示:“AI的歷史被打上了許多重大的、標桿性勝利的印記。盡管還有很多工作要做,但我希望未來的人們在回顧(今天)時,認為這是AI系統(tǒng)向前邁進了一步的象征。”
在視頻游戲里擊敗人類玩家似乎是AI開發(fā)過程中的一個小插曲,但這也是一個重大的研究挑戰(zhàn)?!缎请H爭霸2》這樣的游戲比圍棋之類棋盤游戲更難玩。在視頻游戲中,AI無法通過觀察每個棋子的移動來計算下一步棋,它們必須實時做出反應。
去年12月份的比賽截圖顯示,AlphaStar與人類玩家TLO的對決
這些因素似乎對DeepMind被稱為AlphaStar的AI系統(tǒng)并未構(gòu)成多大障礙。首先,它打敗了人類職業(yè)玩家達里奧·溫什(Dario Wunsch,即TLO),然后將目標對準MaNa。這些比賽最初是于去年12月份在DeepMind的倫敦總部舉行的,但該公司今天播放了AlphaStar與MaNa的最后一場比賽,這是人類玩家唯一獲勝的比賽。
《星際爭霸》的職業(yè)評論員形容AlphaStar的表現(xiàn)是“非凡的”、“超人的”。在《星際爭霸2》中,玩家在建立基地、訓練軍隊和入侵敵人領土之前,會從相同地圖的不同側(cè)面展開行動。AlphaStar尤其擅長所謂的“微操”,即在戰(zhàn)場上快速、果斷地控制單個或少量部隊的能力。
盡管人類玩家有時能夠訓練出更強大的作戰(zhàn)單位,但AlphaZero還是能夠在近距離內(nèi)戰(zhàn)勝他們。在一場游戲中,AlphaStar用名為Stalker的快速移動單位騷擾MaNa。評論員凱文·范德庫伊(Kevinvan der Kooi)將其描述為“非凡的單位控制能力,很不常見”。MaNa在賽后表示:“如果我和任何人類比賽,他們都不會將Stalker運用得如此出神入化。”
這與我們在其他高級游戲AI中看到的行為相呼應。當OpenAI去年在《Dota 2》中與人類職業(yè)選手對決時,它們最后以失敗告終。但專家們指出,這些AI是以一種“清晰而精確”的方式進行著游戲。對此,我們無需感到奇怪,快速做出沒有任何錯誤的決定是機器的天賦異能。
專家們已經(jīng)開始仔細分析這些比賽,并就AlphaStar是否擁有任何不公平的優(yōu)勢展開辯論。這些AI在某些方面依然顯得笨拙,例如,AlphaStar的每分鐘點擊依然比人類低。但與人類玩家不同的是,它每次都能夠查看整個地圖,而不是手動導航。
DeepMind的研究人員表示,這并沒有為AlphaStar提供真正的優(yōu)勢,因為它在任何時間只關注地圖的某個特定部分。但是,正如比賽所顯示的那樣,這并沒有阻止AlphaStar同時熟練地控制三個不同區(qū)域的單位。評論員們表示,這對人類來說是不可能的。值得注意的是,當MaNa在直播比賽中擊敗AlphaStar時,AI使用的是受限的攝像頭視角。
AlphaStar的另一個潛在痛點是,人類玩家雖然是職業(yè)玩家,但卻不是世界冠軍的標準。TLO還必須扮演《星際爭霸2》中他不熟悉的三個種族之一。
AlphaStar處理過程的圖形展示,該系統(tǒng)從上到下能看到整個地圖,并預測哪些行為將幫助獲得勝利
AI的重大進步?
撇開這些不談,專家們稱這場比賽是AI向前邁出的重要一步。長期參與《星際爭霸》AI場景的AI研究人員戴夫·丘吉爾(Dave Churchill)表示:“我認為AI取得了重大成就,至少比我在AI研究人員中聽到的最樂觀猜測提前了一年。”然而,邱吉爾補充說,由于DeepMind尚未發(fā)布任何關于這項工作的研究論文,因此很難說它是否顯示出任何技術上的飛躍。他指出:“我還沒有讀過這篇博客文章,也沒有接觸過相關的論文或技術細節(jié)。”
佐治亞理工學院AI副教授馬克·里德爾(Mark Riedl)表示,他對結(jié)果并不那么驚訝,AI獲得勝利只是“時間問題”。里德爾補充說,他不認為這些比賽表明《星際爭霸2》已經(jīng)被AI徹底掌控。他表示:“在上一場直播比賽中,限制AlphaStar的某些能力確實消除了它的許多人為優(yōu)勢。但我們看到的更大的問題是,當人們可以把AI推出舒適區(qū)時,它就會崩潰。”
丹麥哥本哈根信息技術大學的塞巴斯蒂安·里斯(Sebastian Risi)表示:“這看起來是向前邁出的一大步。我們不知道這其間有多少創(chuàng)新,但培訓AI的方式似乎是關鍵。”里斯的同事尼爾斯·賈斯特森(NielsJustesen)說:“我沒想到會發(fā)生這樣的事情,尤其是因為之前的端到端學習《星際爭霸》的嘗試遠遠沒有達到人類的水平。”
殘酷的強化學習AI競技場
最終,這類工作的最終目標不是利用AI在視頻游戲中擊敗人類,而是改進AI的訓練方法,尤其是為了創(chuàng)建能夠在《星際爭霸》等復雜虛擬環(huán)境中運行的系統(tǒng)。
為了訓練AlphaStar DeepMind的研究人員使用了被稱為強化學習的方法。AI智能體基本上是通過反復嘗試才能達到某些目標,比如贏球或者僅僅是生存下去。它們首先通過模仿人類玩家來學習,然后在類似競技比賽中相互對決。最強的AI會存活下來,最弱的則被淘汰。DeepMind估計,其每個AlphaStar智能體都以這種方式積累了大約200年的游戲時間,游戲速度也在加快。
DeepMind很清楚自己開展這項工作的目標。AlphaStar項目聯(lián)合負責人奧里爾·維尼亞斯(Oriol Vinyals)說:“首先,也是最重要的,DeepMind的任務是建立通用AI,它可以執(zhí)行人類所能完成的任何心理任務。要實現(xiàn)這個目標,最重要的就是對我們的AI智能體在各種任務中的表現(xiàn)進行基準測試。”
科技媒體Engadget評論道,谷歌旗下的AI子公司DeepMind已經(jīng)轉(zhuǎn)向電腦游戲,其AI系統(tǒng)始終在進行微調(diào),以適應《星際爭霸2》。今天的《星際爭霸2》比賽,是AlphaStar與職業(yè)玩家的第一次正面交鋒。在兩場五局的系列比賽中,AlphaStar戰(zhàn)勝了職業(yè)選手TLO和MaNa,贏得了10場勝利。而在連續(xù)十次失利后,人類玩家終于贏得了最后一場比賽。
DeepMind的野心
雖然游戲并不能很好地展示這項技術,但它確實描繪了DeepMind在理解人類行為方面取得的長足進步。最終,這項技術可以被用于許多其他領域,如理論物理學,甚至醫(yī)學。紐約大學的朱利安·加里烏斯(Julian lius)表示:“我認為《星際爭霸》就像是在經(jīng)營一家公司,尤其是后勤部門。關鍵是要規(guī)劃研發(fā),在正確的時間把產(chǎn)品送到正確的地方,避免瓶頸。”
AlphaStar也可以幫助專業(yè)人士改善他們的策略。馬耳他大學的Georgios Yannakakis稱:“如果AI能夠找到最優(yōu)的游戲方式,那將是非常令人興奮的。這畢竟是人們構(gòu)建AI的原因之一。目前來說,很多人都不想在任何游戲中遇到DeepMind的AI對手,更不用說像《星際爭霸2》中與其進行激烈對決了。
責任編輯:劉微
特別聲明:本網(wǎng)登載內(nèi)容出于更直觀傳遞信息之目的。該內(nèi)容版權(quán)歸原作者所有,并不代表本網(wǎng)贊同其觀點和對其真實性負責。如該內(nèi)容涉及任何第三方合法權(quán)利,請及時與ts@hxnews.com聯(lián)系或者請點擊右側(cè)投訴按鈕,我們會及時反饋并處理完畢。
- 蘋果取消Airpower怎么回事?蘋果為什么取消Airpower原因揭秘2019-03-30
- 微軟禁過愚人節(jié)原因是什么?微軟為什么禁過愚人節(jié)?2019-03-29
- 斗魚23次投訴虎牙怎么回事?斗魚為什么投訴虎牙?2019-03-29
- 最新游戲資訊 頻道推薦
-
LOL國服正式開啟貓狗大戰(zhàn)活動,你可知道此次2019-03-31
- 進入新聞頻道新聞推薦
- 話劇《父親》亮相鷺島
- 進入圖片頻道最新圖文
- 進入視頻頻道最新視頻
- 一周熱點新聞
已有0人發(fā)表了評論