本申請公開了一種基于值函數可信度的多智能體強化學習方法及相關裝置,方法包括基于各智能體的觀測值確定各智能體的勢能函數;基于各勢能函數確定局部值函數及候選全局值函數;基于全局環境信息、局部值函數及候選全局值函數確定若干信譽值;基于各局部值函數、候選全局值函數及信譽值確定全局值函數;基于全局值函數及各智能體的勢能函數,利用集中訓練分布機制訓練多智能體。本申請通過確定若干局部值函數可以學習到各智能體的局部環境信息,再結合若干局部值函數形成全局值函數可以提高全局值函數的精準性,提高多智能體強化學習的收斂速度。同時,在計算全局值函數時為各局部值函數配置信譽度,提高多智能體強化學習的學習效率以及魯棒性。
聲明:
“基于值函數可信度的多智能體強化學習方法及相關裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)