本發明公開了一種基于圖像隱變量概率模型的分布式強化學習社交導航方法。本發明通過引入圖像隱變量概率預測模型替代傳統的決定性預測模型,一方面增強模型的合理性,使得預測更逼近于存在隨機性的行人運動模型,另一方面通過增強模型的探索能力來進一步加強策略性能,避免過擬合。同時,本發明通過圖像序列解耦移動機器人自身運動來實現動態障礙物的判別,省去了存在不穩定性的高層行人檢測模塊,可以實現效果良好的遷移。另外,本發明設計了策略共享的多智能體仿真環境來模擬行人動態環境,增強仿真與真實人群交互的相似程度。環境中多智能體同步進行數據采集,因此訓練時間可以得到進一步縮減。
聲明:
“基于圖像隱變量概率模型的分布式強化學習社交導航方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)