本發明的公開了一種基于神經元覆蓋率的深度強化學習魯棒訓練方法和裝置,包括以下步驟:(1)搭建智能駕駛環境,從智能駕駛環境中采集狀態數據對深度強化學習模型訓練,直到達到設定回報值為止;(2)利用訓練好的深度強化學習模型在環境中運行,提取多輪的狀態動作對;(3)構建用于根據歷史狀態動作對序列預測未來時刻狀態動作對序列的預測器和用于對狀態動作對進行質量分類的分類器,并利用提取的狀態動作對訓練預測器和分類器;(4)依據定義的對抗采樣策略,根據狀態動作對質量采樣狀態動作對并進行深度強化學習模型的再訓練,以提高深度強化學習模型的魯棒性。
聲明:
“基于神經元覆蓋率的深度強化學習魯棒訓練方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)