本發明公開了一種強化學習中超高精度探索環境下的狀態空間處理方法,系統及電子設備,涉及超高精度環境狀態空間處理方法、系統及電子設備領域。本發明利用環境引擎對所述智能體在環境中對于威脅物和目標點的相關物理量進行采集,通過空間狀態處理模塊建立倒空間物理量規范,將原始空間相關物理量進行倒空間狀態處理,放大所述智能體在相鄰時刻間的動作上物理特征差異。再通過策略分析和策略執行結構對所述物理特征進行分析和智能體動作執行,執行的結果經環境引擎處理輸入條件,輸入至內部Reward函數,根據Reward函數輸出結果對智能體動作制定強化學習策略,保證了智能體可在環境序列間狀態差異相對自身差異數量級過小的情況下進行有效的學習訓練。
聲明:
“強化學習中超高精度探索環境下的狀態空間處理方法、系統及電子設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)