本發明涉及人工智能技術領域,尤其是涉及一種基于適應度預測的強化學習模型訓練方法及其系統。本方法中,需要先獲取輸入參數,并根據輸入參數計算得到真實適應度原始值,再對輸入參數進行降維處理,并基于適應度預測網絡對降維處理后的輸入參數進行適應度預測,得到預測適應度值,進一步,從輸入參數中篩選得到目標參數,再進一步,對目標參數進行處理得到策略執行動作,從而對目標環境進行檢測,獲取環境參數,最終基于環境參數對強化學習模型進行優化訓練,得到訓練好的強化學習模型。本發明通過適應度預測網絡在適應度評估之前預先過濾掉明顯不適應目標環境的輸入參數,減少了強化學習模型進行適應度評估所耗費的算力資源以及時長。
聲明:
“基于適應度預測的強化學習模型訓練方法及其系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)