本發明公開一種基于最大熵強化學習框架的無人駕駛車道保持方法,包括:(1)創建無人車仿真道路環境;設置環境車行駛策略和行人的運動模型,設計獎勵函數以及碰撞檢測條件;(2)利用深度神經網絡近似狀態值函數、動作值函數以及策略,并初始化網絡參數;(3)獲得無人車初始狀態,使其與環境交互,收集數據,并存儲到緩沖池;(4)對狀態值函數網絡、動作值函數網絡以及策略網絡進行更新;(5)對目標值函數網絡進行更新,直到策略網絡將近收斂;(6)將狀態值網絡優化目標中熵項系數置零,繼續訓練直到策略網絡完全收斂;(7)對于訓練好的策略模型,根據網絡輸出的動作概率分布,選擇概率值最大的動作給無人車執行。
聲明:
“基于最大熵強化學習框架的無人駕駛車道保持方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)