本發明公開了一種基于記憶增強學習的無人機自主避障導航方法,克服了傳統深度強化學習導航方法在部分可測環境中極易陷入局部困境的問題。首先把無人機自主避障導航問題建模為目標驅動的馬爾可夫決策過程,提出動態相對目標的目標特征提取方法,引導無人機學習導航問題的本質特征;然后考慮到傳統導航方法由于沒有保存歷史信息,導致無人機在部分可測環境中極易陷入局部困境,本發明設計了一種保存動作記憶和空間信息的記憶增強模塊,在決策時額外考慮歷史的觀測以及動作序列,使無人機更易脫離困境;最后本發明提出基于高斯分布探索增強的深度強化學習算法,使其能夠在提高算法收斂速度的前提下保持并提高無人機避障導航的成功率。
聲明:
“基于記憶增強學習的無人機自主避障導航方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)