本發明公開一種最小化信息年齡的無人機路徑動態規劃方法,包括以下步驟:首先將無人機動態軌跡規劃問題描述為具有非均勻時間步長的部分可觀測馬爾可夫決策過程,其中有效動作集與智能體的觀測是耦合的,然后設計了一種深度遞歸強化學習算法來尋找最小化加權平均信息年齡期望值的策略,其中,利用改進的折現機制處理來自非均勻時間步長的挑戰,并引入動作剔除機制來解決有效動作與觀測之間的耦合問題;本發明設計了一種基于深度遞歸強化學習的軌跡規劃算法,從而最小化基站處的加權平均信息年齡期望,通過使無人機學習到環境的動態變化并基于此做出明智的決策,通過對比,我們提出的算法的性能明顯優于基準策略。
聲明:
“最小化信息年齡的無人機路徑動態規劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)