本發明涉及一種基于多維獎勵Q學習的模型預測加權因子動態調整方法,屬于自動駕駛車輛軌跡跟蹤控制領域。解決了采用模型預測控制原理設計軌跡跟蹤控制器時對加權因子的選取不當會降低自動駕駛車輛軌跡跟蹤穩定性和精確性以及行駛安全性的問題。本發明通過強化學習中Q學習方法,訓練了加權因子最優調整策略,可實時動態調整模型預測軌跡跟蹤控制器的加權因子,從而實時優化自動駕駛車輛的軌跡跟蹤性能,以減少在每個采樣時刻下車輛實際位置與預期軌跡之間的誤差,提高自動駕駛車輛的軌跡跟蹤精度和行駛穩定性、舒適性。
聲明:
“基于多維獎勵Q學習的模型預測加權因子動態調整方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)