本發明公開了一種基于模型的近端策略優化方法,包括步驟:獲取模擬環境,并確定所述模擬環境對應的環境模型和策略網絡;基于所述策略網絡與所述模擬環境,確定狀態數據;其中,所述狀態數據包括所述模擬環境的視頻序列幀;基于所述模擬環境的視頻序列幀訓練所述環境模型,得到已訓練的環境模型輸出的預測圖像;基于所述預測圖像,更新所述狀態數據,得到更新的狀態數據;基于所述更新的狀態數據,更新所述策略網絡,得到更新的策略網絡。融合基于模型的深度強化學習算法,提出了基于模型的近端策略優化框架,較好的解決了非完全信息博弈環境下采樣利用率低的問題,在提高采樣率的同時提升訓練速度。
聲明:
“基于模型的近端策略優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)