本發明公開了一種基于多步新奇度的時態序列迭代預測算法、介質和設備,算法包括先基于時態序列數據建立內、外部模型,初始化多維經驗矩陣;外部模型抽樣訓練;外部模型在每一次交互中,從時態序列數據獲取當前狀態和獎勵,并輸出當前狀態、行為和預測的執行行為后的狀態;內部模型對外部模型預測的狀態進行多步預測,預測信息存儲到多維經驗矩陣中,不斷迭代更新內部模型;定義新奇度,在外部模型的每一次迭代,從多維經驗矩陣中抽出對應元素,并比較每個元素和外部模型預測的狀態來計算新奇度;基于新奇度不斷迭代更新內、外部模型,多維經驗矩陣也根據時間節點不斷更新。本發明解決強化學習中稀疏獎勵的訓練障礙,可達到模型更快收斂的效果。
聲明:
“基于多步新奇度的時態序列迭代預測算法、介質和設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)