本申請提供一種基于多Agent環境的深度強化學習算法、設備和存儲介質,涉及深度強化學習算法技術領域;通過步驟S101、利用Agent中的目標網絡,基于初始狀態信息和動作信息,確定時間差分;步驟S102、根據預設的遮蓋率,對初始狀態信息進行隨機遮蓋,得到目標狀態信息,利用Agent中的預測網絡,以及時間差分,確定誤差值;步驟S103:基于誤差值,以及自適應修改參數,對Agent中的預測網絡和目標網絡各自對應的加權值進行更新;步驟S104:重復步驟S102和步驟S103預設次數,確定目標加權值,從而確定目標深度強化學習模型。具有保證了樣本學習效率,并通過自適應修改參數對深度強化學習模型中的Agent進行迭代更新,以提高收斂速度的效果。
聲明:
“基于多Agent環境的深度強化學習算法、設備和存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)