本發明提供一種復雜場景自主移動機器人自監督學習及導航方法,具體步驟包括:設置機器人的訓練次數;采集機器人所在環境的實際狀態圖像;將采集的實際狀態圖像與機器人執行動作前所預測的預測狀態圖像比較,計算所述實際狀態圖像與所述預測狀態圖像之間的損失函數,根據所述的損失函數計算獎懲信號,根據獎懲信號更新網絡權重,預測機器人的動作和預測狀態圖像;機器人執行動作,記錄已完成訓練次數;判斷其是否達到預先設置的訓練次數,若結果為否,則返回繼續訓練;若結果為是,則加權所有的獎懲信號,更新網絡權重,結束訓練。本發明結合視頻預測技術和強化學習技術,解決了強化學習技術應用到機器人中時人工標記的工作量大的問題。
聲明:
“復雜場景自主移動機器人自監督學習及導航方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)