本發明公開了一種訓練端到端的自動駕駛策略的方法。該方法包括:將反映駕駛環境的高維視覺信息輸入到預訓練的表示網絡,自動學習低維信息,其中所述表示網絡利用采集的示教數據進行監督學習,所述低維度信息是與自動駕駛任務相關度強的抽象特征;構建強化學習模型,智能體通過預訓練的表示網絡的低維信息表示結果來獲取觀測結果,得到優化的駕駛策略,其中強化學習過程基于離散時間的馬爾可夫決策過程實現,強化學習的目標是獲取最大長期回報期望。本發明在強化學習之前學習與自動駕駛任務相關度強的抽象特征表征,能夠更快速、準確的獲得最優駕駛策略。
聲明:
“訓練端到端的自動駕駛策略的方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)