利用 Deepmind 的這項(xiàng)技術(shù),AI 也會(huì)玩《憤怒的小鳥》了
點(diǎn)擊播放
由deepsound提供技術(shù)支持
《憤怒的小鳥》,一款主流且經(jīng)典的游戲,自 2009 年以來已經(jīng)被下載了 40 億次;大約是地球上總?cè)丝诘陌霐?shù)。除此之外,它催生了眾多相關(guān)圖畫小說和書籍,兩部電影和四個(gè)系列動(dòng)畫劇,更不用說在智能手機(jī)及其他平臺上衍生出的無數(shù)游戲,甚至是 AR 版本的游戲。
雷鋒網(wǎng)注:上圖為 AR 版《憤怒的小鳥》之《豬島》
現(xiàn)如今,這款風(fēng)靡全球的游戲也受到了來自 AI 的挑戰(zhàn)——AI 已經(jīng)達(dá)到了該游戲頂級玩家的同等水平。
本周,Arixiv.org 上發(fā)表了一篇 論文 ,布拉格查爾斯大學(xué)的研究人員詳細(xì)介紹了一個(gè)叫作 DQ-Birds 的 AI 系統(tǒng);該系統(tǒng)通過由 Deepmind 率先提出的 Deep Q-learning 算法訓(xùn)練,從而在之前隨機(jī)取樣的環(huán)境下完成指定的任務(wù)。
雷鋒網(wǎng) 了解到 ,通常,研究人員在利用 Deep Q-learning 算法訓(xùn)練 AI 系統(tǒng)時(shí),還會(huì)采取 Double Q-learning 的算法;這種算法至關(guān)重要,因?yàn)樗皇怯脕砜刂茩C(jī)器的下一步動(dòng)作,而是用來評估決策。
研究人員在論文中寫道:
對于人工智能智能體來說,《憤怒的小鳥》這款游戲十分棘手,因?yàn)樗枰紤]順序和游戲環(huán)境等隨機(jī)因素,還需要區(qū)分多種類別的小鳥,以及它們相應(yīng)的能力和最佳點(diǎn)擊時(shí)間。如果想要成功地完成任務(wù),人工智能智能體就要具備提前預(yù)測或模擬自己行動(dòng)的后果。
為此,AI 系統(tǒng)會(huì)捕捉游戲截圖(為了讓游戲物理效果穩(wěn)定下來,系統(tǒng)在拍照前會(huì)等待 5 秒鐘),然后對其進(jìn)行裁剪,并隱藏“菜單”和“再玩一次”等 UI 元素。截圖經(jīng)過裁剪后,系統(tǒng)會(huì)調(diào)整圖片的大小,讓它們呈相對統(tǒng)一的規(guī)范狀態(tài),然后再傳送給 Deep Q-learning 機(jī)器學(xué)習(xí)算法。
雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)) 獲悉,為了更加深入地了解自己的模型,該團(tuán)隊(duì)還從《憤怒的小鳥》中經(jīng)典的 Poached Eggs 關(guān)卡里收集了 21 個(gè)難度級別的數(shù)據(jù)集,其中包括超過 11.5 萬個(gè)截圖。研究人員報(bào)告說,他們的 AI 系統(tǒng)已經(jīng)能夠在某些級別上超過一個(gè)由四名人類專業(yè)玩家組成的小組的分?jǐn)?shù),但在 21 個(gè)難度級別的分?jǐn)?shù)總和上還是略遜一籌,尤其是在過 18 級難度的關(guān)卡時(shí)。
除此之外,在 IJCAI(International Joint Conference on Artificial Intelligence,國際人工智能聯(lián)合會(huì)議)大會(huì)舉行期間,這個(gè)研究團(tuán)隊(duì)還攜其 AI 模型參加了憤怒的小鳥 AI 競賽;這場競賽中,有幾個(gè)參賽選手的 AI 模型成功在三個(gè)回合中通過了 8 個(gè)此前從未接觸過的關(guān)卡,然而,DQ-Birds 系統(tǒng)并沒有獲勝,但它成功通過了其中 3 個(gè)關(guān)卡,這已經(jīng)比 2017 年的半決賽水平還要高了。
研究人員在報(bào)告中說道:
我們在這項(xiàng)工作中有一個(gè)目標(biāo)沒有達(dá)成,那就是 DQ-Birds 系統(tǒng)沒有完全超越人類;這有很大一部分原因在于該系統(tǒng)還缺乏足夠多樣的訓(xùn)練數(shù)據(jù)集。但好消息時(shí),DQ-Birds 在某些關(guān)卡已經(jīng)能一次性過關(guān)。
。
