實施方式利用深度強化學習來訓練策略神經網絡,該策略神經網絡參數化策略,以用于基于當前狀態來確定機器人動作。這些實施方式中的一些從同時操作的多個機器人收集經驗數據。每個機器人在作為對執行任務的每次探索并且各自在情節期間基于策略網絡和策略網絡的當前策略參數被引導的情節的迭代執行期間生成經驗數據的實例。所收集的經驗數據在情節期間生成,并用于通過基于一批所收集的經驗數據迭代地更新策略網絡的策略參數來訓練策略網絡。此外,在由機器人執行的多個情節中的每一個情節的執行之前,可以提供(或檢索)當前更新的策略參數,以供情節的執行時利用。
聲明:
“機器人操縱的深度強化學習” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)