在一個實施方式中,系統生成多個驅動駕駛場景來訓練強化學習(RL)代理并重放每個驅動駕駛場景以通過以下操作訓練RL代理:將RL算法應用于驅動駕駛場景的初始狀態,以從ADV的多個離散的控制/動作選項中確定多個控制動作,以達到基于多個離散的軌跡狀態選項的多個軌跡狀態,對于每個控制/動作確定通過RL算法的回報預測,確定軌跡狀態的判斷分數,并基于判斷分數更新RL代理。
聲明:
“使用強化學習來加速自動駕駛車輛的軌跡規劃的離線代理” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)