本發明提供了一種基于深度確定性策略梯度的自適應控制方法,依據真實系統特性構建的仿真訓練環境;構建狀態(觀測量),回報函數,截止條件,動作;構建深度確定性策略梯度方法的critic網絡、actor網絡和相應的目標網絡,通過與仿真訓練環境的試錯交互進行訓練;使用actor網絡訓練結果作為該系統的控制器。本發明將深度強化學習方法應用于控制器設計,介紹該方法的實施步驟,通過離線仿真訓練,達到控制器要求后移植到真實環境中,實現非線性系統自適應控制。
聲明:
“基于深度確定性策略梯度的自適應控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)