本發明涉及一種基于多智能體強化學習的合作型智能體的學習方法,步驟一:重置多個目標環境;步驟二:初始化策略網絡πθ的模型參數θπ和全局信息預測網絡fθ的模型參數θf;步驟三:在環境中對多環境中的多智能體以當前策略π進行采樣;每一步中,環境中的多個智能體共享同一狀態,針對每個智能體對狀態提取特征后作為模型輸入的數據;步驟四:對模型參數θπ和θf進行更新;步驟五:直至模型收斂或達到最大步數。本發明在智能體處于合作關系的環境下更好地利用了全局特征信息,通過局部信息預測全局信息的模型令每個智能體學會感知局部信息與全局信息的聯系,更好地協作;使得不同智能體得以直接共享模型參數,簡化模型復雜度,提高效率。
聲明:
“基于多智能體強化學習的合作型智能體的學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)