本發明屬于工程機械及車輛工程領域,具體涉及一種基于深度強化學習的換擋策略動態優化方法。包括如下步驟:(1):確定換擋策略狀態輸入變量和動作輸出變量;(2):根據狀態輸入變量和動作輸出變量,確定換擋策略馬爾科夫決策過程;(3):根據換擋策略目標建立強化學習換擋策略獎勵函數;(4):根據馬爾科夫決策過程和獎勵函數,求解深度強化學習換擋策略;(5):將步驟(4)計算出的預測Q網絡放入換擋策略控制器,工程機械及車輛在行駛過程中,工程機械及車輛根據換擋策略控制器選擇擋位;(6):在行駛過程中定期更新預測Q網絡。本發明通過深度強化學習方法對換擋策略進行更新,實現換擋策略的動態優化。
聲明:
“基于深度強化學習的換擋策略動態優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)