本發明提供了一種基于蒙特卡洛采樣的棋牌強化學習方法、系統及介質,包括,獲取玩家的當前狀態;確定玩家在所述當前狀態下的多個預測動作;對于所述多個預測動作中的每一個:將所述當前狀態和預測動作輸入棋牌模型,模型輸出所述預測動作對應的第一評分,其中,所述棋牌模型通過基于蒙特卡洛采樣得到的訓練樣本訓練得到;將最大的第一評分所對應的預測動作作為玩家的當前動作,使得可以將模型的輸出變成1維,便于結果收斂。
聲明:
“基于蒙特卡洛采樣的棋牌強化學習方法、系統及介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)