本發明提供了一種基于聯邦強化學習的衛星資源調度優化方法,將對地觀測衛星資源調度優化問題抽象為一個離散馬爾可夫決策問題,應用聯邦強化學習算法求解對地觀測衛星資源調度最優解,本發明利用聯邦學習和強化學習技術,挖掘對地觀測任務與衛星資源之間隱含的內在關聯關系,充分挖掘各個智能體在訓練過程中各種有關聯的特征指標,形成了高效高質量的全局調度優化模型,最終生成最優無沖突的對地觀測衛星資源調度優化方案,且該優化方法有效的降低了衛星資源調度優化中對調度啟發式規則和人工歷史分配經驗的依賴,提高資源調度方法的有效性和準確性,可顯著提高對地觀測衛星資源調度的智能化管控水平。
聲明:
“基于聯邦強化學習的衛星資源調度優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)