一種基于強化學習的水下機器人避障路徑規劃方法,首先對水下機器人的能耗模型以及動力學模型,水下洋流場景模型進行建模;其次將水下機器人對到達路徑點的能耗與時長最小化問題建模為抽象的馬爾可夫決策過程;將當前水下機器人的觀測信息通過抽象網絡轉到隱藏層成為隱藏狀態,將隱藏狀態和想采取的動作通過轉移預測網絡映射至下一隱藏向量和預測獎勵,另外策略網絡通過給定的隱藏向量選擇采取的動作以及當前局面的總獎勵,在這個場景中即為到達目標點。通過水下機器人與環境的不斷交互學習環境模型,得到即時獎勵改進神經網絡。最后將訓練好的策略網絡部署到水下機器人中。
聲明:
“基于強化學習的水下機器人避障路徑規劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)