本發明公開一種基于部分可觀測遷移強化學習的自動駕駛決策方法及系統,使用情景相關的方案重用方法,通過遷移駕駛方案數據庫中的現有方案來輔助解決陌生路況下的行車問題。為了達到較好的乘坐體驗,使用強化學習來解決自動駕駛領域中的決策問題。系統包括情景單元、感知單元、決策單元、動作規劃單元和控制單元。通過向虛擬環境數據庫添加新的環境模型以應對日漸復雜的行車情景;通過在神經網絡中添加卷積層來識別車輛周圍的障礙物;通過在神經網絡中添加長短時記憶單元來記憶重要的歷史信息;通過使用基于玻爾茲曼軟最大化的加權深度雙Q網絡算法來更準確地估計Q值;通過使用最大熵Mellowmax算法來求得各駕駛方案被選中的概率。
聲明:
“基于部分可觀測遷移強化學習的自動駕駛決策方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)