聯(lián)系我們

發(fā)布時(shí)間：2021-01-18 15:53:12

聯(lián)系電話：
153 2226 0625(韋先生)
183 0661 7892(王先生)
159 9995 6247(李小姐)
020-32859809
郵箱：
wcf@penghua888.com

ph686@penghua888.com
eugenia@penghua888.com
公司地址：

廣州市增城區(qū)新塘鎮(zhèn)民營(yíng)工業(yè)區(qū)民營(yíng)西一橫2號(hào)
立即咨詢

聯(lián)系電話：
138 2226 0625（韋先生）
183 0661 7892（王先生）
159 9995 6247（李小姐）
020-32859809
郵箱：
wcf@penghua888.com

ph686@penghua888.com
eugenia@penghua888.com
公司地址：

廣州市增城區(qū)新塘鎮(zhèn)民營(yíng)工業(yè)區(qū)民營(yíng)西一橫2號(hào)
立即咨詢

您現(xiàn)在的位置：

首頁(yè) >> 新聞資訊 >> 行業(yè)新聞

人類玩德州撲克也撲街了？Facebook開(kāi)發(fā)玩德州撲克的AI

分類：公司新聞
作者：
來(lái)源：
發(fā)布時(shí)間：2021-01-07 08:32:28
訪問(wèn)量：

【概要描述】近年來(lái)人工智能發(fā)展迅猛，很多重復(fù)性的工作都被AI自動(dòng)化了，人類工作要被機(jī)器替代的說(shuō)法也「甚囂塵上」，而現(xiàn)在，打打撲克也不行了？最近，F(xiàn)acebook 的研究人員開(kāi)發(fā)了一個(gè)名為「Recursive Belief-based Learning」（ReBeL)的通用人工智能框架，德州撲克玩的相當(dāng)溜。根據(jù)Facebook的說(shuō)法，這個(gè)框架在單挑無(wú)限制的德州撲克游戲

2023年新春答謝晚宴

【概要描述】

分類：公司新聞
作者：
來(lái)源：
發(fā)布時(shí)間：2023-02-07 13:29
訪問(wèn)量：

詳情

近年來(lái)人工智能發(fā)展迅猛，很多重復(fù)性的工作都被AI自動(dòng)化了，人類工作要被機(jī)器替代的說(shuō)法也「甚囂塵上」，而現(xiàn)在，打打撲克也不行了？

最近，F(xiàn)acebook 的研究人員開(kāi)發(fā)了一個(gè)名為「Recursive Belief-based Learning」（ReBeL)的通用人工智能框架，德州撲克玩的相當(dāng)溜。

根據(jù)Facebook的說(shuō)法，這個(gè)框架在單挑無(wú)限制的德州撲克游戲中明顯優(yōu)于人類表現(xiàn)，而且使用的領(lǐng)域知識(shí)比之前任何撲克人工智能都要少。

他們斷言 ReBeL 是開(kāi)發(fā)通用多代理交互技術(shù)的一種方法，該算法可以部署在大規(guī)模、多代理環(huán)境中，預(yù)期的應(yīng)用范圍也很廣，從拍賣、談判、網(wǎng)絡(luò)安全到自動(dòng)駕駛都能用上。

AlphaZero在不完全信息游戲中表現(xiàn)「差點(diǎn)意思」

目前，將強(qiáng)化學(xué)習(xí)與搜索相結(jié)合，在人工智能模型訓(xùn)練和測(cè)試方面，已經(jīng)取得了一些進(jìn)展。

強(qiáng)化學(xué)習(xí)代理是通過(guò)最大化回報(bào)來(lái)學(xué)習(xí)的，而搜索是從開(kāi)始到目標(biāo)狀態(tài)的導(dǎo)航過(guò)程。例如，DeepMind 的 AlphaZero 使用強(qiáng)化學(xué)習(xí)和搜索技術(shù)在國(guó)際象棋、圍棋等游戲中實(shí)現(xiàn)了SOTA效果。

但是之前的組合方法在應(yīng)用于不完全信息的游戲如撲克(甚至是石頭、剪子、布)時(shí)就不那么奏效了，因?yàn)?/span>它做出了一些在這種情況下不成立的假設(shè)。

任何給定動(dòng)作的價(jià)值取決于它被選擇的概率，更一般地說(shuō)，取決于整個(gè)游戲策略，而圍棋游戲的搜索空間是有限的，并且每一個(gè)動(dòng)作的價(jià)值可以在被選之前評(píng)估出來(lái)。

基于信念的遞歸學(xué)習(xí)擊敗頂尖人類玩家

ReBeL將「游戲狀態(tài)」的概念進(jìn)行了擴(kuò)展，它包括了代理基于常識(shí)和其他代理的政策對(duì)他們可能處于何種狀態(tài)的置信度。

ReBeL通過(guò)自我強(qiáng)化學(xué)習(xí)訓(xùn)練了兩個(gè)網(wǎng)絡(luò)：一個(gè)價(jià)值網(wǎng)絡(luò)和一個(gè)政策網(wǎng)絡(luò)。它在自我對(duì)弈中使用兩種模型進(jìn)行搜索。結(jié)果是一種簡(jiǎn)單，靈活的算法，研究人員聲稱該算法能夠在大規(guī)模的兩人不完全信息游戲中擊敗頂尖的人類玩家。

從更高層次上來(lái)講，ReBeL 運(yùn)行于公共置信狀態(tài)而不是世界狀態(tài)(即游戲狀態(tài))。公共置信狀態(tài)(PBSs)將「狀態(tài)價(jià)值」的概念推廣到像撲克這樣的不完全信息游戲中，PBS是在可能的動(dòng)作和狀態(tài)的有限序列（也稱為歷史記錄）上的常見(jiàn)知識(shí)概率分布，可提供發(fā)生不同結(jié)果的可能性。

在完全信息游戲中，PBS可以提取到歷史記錄，而在兩人零和游戲中，PBS可以有效地提取到世界狀態(tài)。撲克中的PBS是玩家可以做出的一系列決定，以及特定手牌，底池和籌碼時(shí)他們的結(jié)果。

ReBeL在每個(gè)游戲開(kāi)始時(shí)都會(huì)生成一個(gè)與原始游戲相同的「子游戲」，只是它起源于最初的PBS。該算法通過(guò)運(yùn)行「均衡查找」算法的迭代并使用訓(xùn)練后的價(jià)值網(wǎng)絡(luò)在每次迭代中取近似值來(lái)?yè)魯?duì)手。

與世界上最好的單挑撲克玩家之一的Dong Kim相比，ReBeL在7500手牌中每手玩的時(shí)間超過(guò)了2秒，決策所需的時(shí)間從不超過(guò)5秒。Facebook以前的撲克游戲系統(tǒng)Libratus的最高得分為147，而ReBeL對(duì)人類的平均每場(chǎng)比賽盲注（強(qiáng)迫下注）得分為165（標(biāo)準(zhǔn)差為69）。

擔(dān)心被拿去賭錢，F(xiàn)acebook決定不公開(kāi)源碼

在實(shí)驗(yàn)中，研究人員對(duì)ReBeL進(jìn)行了單挑無(wú)限制，Liar’s Dice和殘局游戲的基準(zhǔn)測(cè)試，這是無(wú)限制德州撲克的一種變體，兩個(gè)玩家可以在四輪投注中的前兩輪進(jìn)行檢查或叫牌。

研究小組使用了多達(dá)128臺(tái)帶有8個(gè)顯卡的電腦來(lái)生成模擬游戲數(shù)據(jù)，并在訓(xùn)練期間隨機(jī)分配賭注和堆棧大小(從5,000到25,000個(gè)芯片)。ReBeL 在整場(chǎng)比賽中接受訓(xùn)練，并且有20,000美元可以下注。

出于對(duì)作弊的擔(dān)心，F(xiàn)acebook 團(tuán)隊(duì)決定不發(fā)布用于撲克的 ReBeL 代碼庫(kù)。相反，他們將 Liar’s Dice 的實(shí)現(xiàn)開(kāi)放了。Facebook的研究人員相信ReBeL將使得德州撲克在強(qiáng)化學(xué)習(xí)研究領(lǐng)域更受歡迎。

「雖然人工智能算法已經(jīng)存在，可以在撲克游戲中取得超人的表現(xiàn)，但這些算法通常假設(shè)參與者擁有一定數(shù)量的籌碼或使用一定的賭注大小」。

而在實(shí)戰(zhàn)中，你的籌碼數(shù)量是不定的，所以需要重新訓(xùn)練算法，這種情況下想進(jìn)行實(shí)時(shí)對(duì)戰(zhàn)就有困難了。但是，ReBeL 可以在幾秒鐘內(nèi)計(jì)算任意任意賭注大小的策略。