一種飛行器雙延遲深度確定性策略梯度姿態控制方法,屬于飛行器控制技術領域。方法如下:建立飛行器動力學模型形成強化學習環境;初始化強化學習交互環境、智能體及最大步數;獲得飛行器的控制量作為動作量;計算動作量對應的獎勵函數值及下一個觀測量,組合形成經驗數據記錄至經驗回放區;對智能體參數進行調整完成一輪強化學習;輸出飛行器控制量燃料空氣混合比與升降舵偏角。本發明是一種高精度、自適應的飛行器智能控制方法,通過雙延遲深度確定性策略梯度方法進行強化學習,實現弱依賴于模型的最優姿態控制器設計,僅需要飛行器的基本模型,模型中各參數量不需完全精確給出,從而減弱了控制系統設計對于模型的依賴程度。
聲明:
“飛行器雙延遲深度確定性策略梯度姿態控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)