本發明公開了一種模型訓練方法和裝置、策略優化方法、設備及介質,所述方法包括:獲取機械臂的訓練數據集合;其中,所述訓練數據集合包括:電壓訓練數據、位姿訓練數據、訓練策略,所述電壓訓練數據作為強化學習的環境,所述訓練策略作為強化學習的動作;根據預設的動力學分析算法對所述訓練數據集合進行模型構建,得到原始機械臂模型;將所述原始機械臂模型輸入預設的神經網絡模型進行線性變換處理,得到初始機械臂模型;根據預設的獎勵函數對所述初始機械臂模型進行更新處理,得到目標機械臂模型。本發明申請能夠使得目標機械臂模型構建簡易,提高機械臂的強化學習的效率。
聲明:
“模型訓練方法和裝置、策略優化方法、設備及介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)