本發明公開了一種序列撥推采樣歸置策略迭代生成學習方法,用于在有限的工作空間、豐富的碰撞和高度耦合的情況下生成連續的推送動作,將隨機分散在有限容器內的任意形狀的物體自主歸置,從而為未來的未知物體擠出盡可能多的空間,自主實現最大化裝箱。本方法采用任務和運動規劃思想,將任務學習抽象為一個兩層問題。高層任務規劃使用基于近端策略優化(PPO)的強化學習進行順序推送決策。在底層運動規劃中,采用傳統的軌跡線性規劃方法結合碰撞檢測生成機器人推送操作。本方法能夠以高效靈活的方式排列未知對象,同時將策略學習和機械臂控制解耦,從而具有更好的從仿真到現實世界的可移植性。
聲明:
“序列撥推采樣歸置策略迭代生成學習方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)