本申請提供一種對戰游戲中強化學習模型的訓練方法及裝置,屬于計算機技術領域,涉及人工智能和計算機視覺技術。方法包括:獲取目標對戰模型以及所述目標對戰模型的相近對手模型,所述相近對手模型為與所述目標對戰模型的等級評分之差小于評分閾值的歷史對戰模型,所述等級評分用于評價模型的對戰能力;基于對戰雙方的對戰狀態特征,分別確定所述目標對戰模型的預測操作以及所述相近對手模型的預測操作;利用所述目標對戰模型以及所述相近對手模型分別控制對戰雙方執行預測操作以進行對戰;確定對戰中所述目標對戰模型的操作價值;基于所述對戰狀態特征、所述預測操作以及所述操作價值訓練所述目標對戰模型。
聲明:
“對戰游戲中強化學習模型的訓練方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)