本發明公開了一種多代理強化學習合作任務下的獎勵函數建模方法,包括:每個代理獨立觀測環境狀態,輸入各自的策略網絡,得到各自的動作決策;在模擬環境執行各代理的動作,得到每個代理各自的獎勵;將各代理之間的交互建模為一張無向圖,使用此圖計算出每個代理的獎勵的加權總和;使用加權后的獎勵訓練代理的策略網絡。該方法能夠對多個代理與環境交互后的結果進行整合,同時建模出的無向圖能夠起到可信度賦值的效果,給訓練算法提供更加精準的獎勵描述,幫助多代理系統在合作任務上學習到更好的策略。
聲明:
“多代理強化學習合作任務下的獎勵函數建模方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)