本發明提供一種基于強化學習的變化環境多智能體控制方法與裝置,包括:將當前環境信息和各個智能體的隱含狀態輸入到智能體網絡,得到智能體網絡輸出的各個智能體的觀測動作價值;觀測動作價值用于表征對應智能體當前執行所有動作的預估價值;基于各個智能體的觀測動作價值,控制各個智能體執行動作;其中,智能體網絡是基于樣本環境信息和樣本智能體的樣本隱含狀態,聯合自加權網絡進行強化學習得到的;自加權網絡用于確定所有樣本智能體執行動作的聯合動作價值;在強化學習過程中,自加權網絡的輸入包括智能體網絡輸出的所有樣本智能體的樣本觀測動作價值。本發明提供的方法與裝置能夠避免變化環境中智能體數量動態變化對訓練過程的影響。
聲明:
“基于強化學習的變化環境多智能體控制方法與裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)