本發明公開了一種基于強化學習PPO2算法的無人艇位姿控制方法,包括無人艇環境建模;根據無人艇的情況設置動作和狀態空間;設置獎勵目標權重,基于所需無人艇控制目標設置獎勵函數來控制無人艇;設計深度神經網絡,包括狀態價值函數估計器網絡和策略網絡;用PPO2算法進行無人艇位姿控制器訓練,并對策略網絡參數迭代,直到設定的訓練周期數目全部結束,觀察無人艇位姿控制結果,并將學習步長、觀測空間、動作空間、訓練策略以及訓練完成的神經網絡保存,作為無人艇下次調用。本發明利用PPO2算法進行無人艇的姿態航向控制;通過強化學習,不依賴于具體模型,能有效地控制復雜環境下的無人艇系統。
聲明:
“基于強化學習PPO2算法的無人艇位姿控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)