本發明公開了一種基于分層強化學習的群體對抗系統,包括上層宏觀策略網絡和下層微觀動作網絡;所述上層宏觀策略網絡包括多個智能體采用的多個策略網絡和混合網絡,每個策略網絡用于依據當前時刻的觀測狀態和前多個時間步的子目標計算輸出當前時刻的預測子目標;混合網絡用于根據全環境狀態信息、各子智能體采用策略網絡輸出的預測子目標計算輸出宏觀總目標作為下一時刻各智能體的子目標;所述下層微觀動作網絡包含多個智能體采用的多個DQN,每個DQN用于根據當前時刻的觀測狀態和當前時刻的子目標計算輸出決策動作。該系統中智能體能夠在兼顧宏觀總目標和個體子目標的情況下生成更準確決策,適用于多智能體協同博弈對抗的游戲環境中。
聲明:
“基于分層強化學習的群體對抗系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)