本發明公開一種機器人自主學習方法、裝置、設備及存儲介質,該方法包括:基于預先構建的虛擬環境,獲取由虛擬環境自動生成的環境參數;根據環境參數,通過深度學習模型生成訓練數據;根據訓練數據,采用分層強化學習框架生成至少一個機器人技能;根據待執行任務確定機器人的狀態空間,基于狀態空間,采用變分推理方法預測待執行任務的潛在技能向量,潛在技能向量與至少一個機器人技能中的其中一個機器人技能具有一一對應的關系;根據機器人技能和潛在技能向量,采用強化學習算法獲得用于完成待執行任務的機器人控制策略。本發明在面對不同類型的任務時,無需重復針對不同類型的任務對機器人進行技能訓練,提高了機器人進行自主學習的泛化性。
聲明:
“機器人自主學習方法、裝置、設備及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)