本發明提供一種基于多智能體協作系統的深度強化學習方法和裝置,涉及人工智能技術領域,所述方法包括:在一次深度強化學習中,基于預先構建的深度強化學習網絡和當前觀測數據獲取多智能體協作系統對應協作圖的當前分配調整動作,基于當前分配調整動作獲取當前獎懲數據,基于當前獎懲數據優化深度強化學習網絡,重復執行上述步驟,直至達到預設收斂條件或者達到預設學習次數;通過多次深度強化學習更新協作圖的當前分配調整動作,而不更新智能體的實際動作,以簡化深度強化學習的步驟,實現在深度強化學習獎勵稀疏的情況下,快速地進行多次深度強化學習積累更多的獎勵,從而提高深度強化學習網絡的訓練效率以及收斂速度慢。
聲明:
“基于多智能體協作系統的深度強化學習方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)