本發明公開了一種基于動態層級通信網絡的多智能體強化學習方法及系統,方法包括:S100,編碼當前時刻觀測信息和歷史信息,獲得當前時刻觀測特征和依賴特征,并進行預決策;S200,基于注意力機制,根據預決策信息與觀測特征,獲取依賴矩陣;S300,基于最小生成樹算法,動態生成層級關系網絡并進行選擇性有向地通信,生成聯合決策并與環境交互,收集經驗數據;S400,基于線性值分解網絡,為每個智能體分配狀態?動作值函數,更新智能體策略網絡;S500,基于內在獎勵機制,根據演員?評論家框架更新層級網絡參數。在該方法中,多智能體利用動態生成的層級通信網絡進行選擇性的觀測信息和意圖信息共享,基于條件狀態?動作值分解網絡和內在通信獎勵,減少環境的非穩態問題,并對聯合策略及層級通信協議進行高效的學習和更新。
聲明:
“基于動態層級通信網絡的多智能體強化學習方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)