本發明提供了一種基于強化學習的機器人導航避障任務實現方法及系統,包括:將導航任務建模為馬爾可夫過程,為強化學習方法設計狀態空間、動作空間及獎勵函數,確定完成任務的指標;分析控制屏障函數的約束條件,調整參數,訓練得到參數化的控制屏障函數;利用建模步驟中設計的狀態空間、動作空間及獎勵函數,并調整強化學習算法中的超參數,訓練得到策略網絡;根據學習到的控制屏障函數,修改策略網絡的輸出,同時收集數據,更新控制屏障函數;通過預測屏蔽控制,對危險動作施加噪聲,使智能體偏離預定軌跡,使訓練過程安全。本發明基于強化學習的框架,整合了可證明的有效控制屏障函數,以確保學習過程中的安全探索。
聲明:
“基于強化學習的機器人導航避障任務實現方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)