本發明涉及一種基于DPPO的虛實融合柵格舵模型參數優化方法,屬于航天器設計參數優化技術領域。本發明使用BP神經網絡訓練的代理模型替代柵格舵系統物理仿真模型,可以快速地生成數據、完成預測,使用Adams物理仿真模型預測20000組數據需要耗時越20小時,使用代理模型僅需1.6秒。使用DPPO深度強化學習對柵格舵系統參數進行優化,在計算梯度時通過更新前后地參數對比,限制更新步長,解決了基于行為地強化學習的步長敏感問題,使得訓練更易收斂。同時,使用分布式的方式,用多組線程與環境交互,產生訓練數據,在提升數據收集速度的同時,降低了網絡間的相關性,使得訓練更容易收斂,更易實現對柵格舵系統的參數優化。
聲明:
“基于DPPO的虛實融合柵格舵模型參數優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)