本發明涉及一種基于Dueling DQN的虛實融合一二級分離模型參數優化方法,屬于航天器設計參數優化技術領域。本發明使用BP神經網絡訓練的代理模型替代火箭一二級分離系統物理仿真模型,可以快速地生成數據、完成預測。使用Dueling DQN深度強化學習對火箭一二級分離系統結構參數進行優化,將Q值函數分解為價值函數和優勢函數,考慮狀態單獨的影響,使網絡更易收斂。相比傳統啟發式算法,深度強化學習搜索更細致,迭代次數更多,優化結果更優,深度網絡可以積累智能體在可行解空間里的搜索經驗,對于結構相同的問題大大提升了其拓展性和泛化能力,對于新的數據可以在已經訓練過的基礎上在進行訓練,減少再次開發的成本和時間,通過歷史經驗減少訓練消耗的時間。
聲明:
“基于Dueling DQN的虛實融合一二級分離模型參數優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)