本發明涉及一種基于生成模型的隱空間模型化策略搜索學習方法,收集環境的真實狀態轉移樣本數據;構造變分自編碼器網絡模型;訓練變分自編碼器網絡模型直至收斂;在隱空間構建條件生成對抗網絡模型;訓練條件生成對抗網絡模型直至收斂,得到隱空間中的狀態轉移預測模型;利用隱空間狀態轉移預測模型和當前策略生成數量足夠多的路徑樣本;利用路徑樣本更新策略搜索強化學習算法中策略模型的參數,直到策略模型的參數更新收斂為止。本發明是利用生成模型的降維能力和捕捉數據分布能力來模型化狀態轉移函數,并進行策略搜索的方法,既可以解決高維數據很難直接處理的問題,減少內存消耗,又可以高效地解決樣本數量較少或采樣預算不足的難題。
聲明:
“基于生成模型的隱空間模型化策略搜索學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)