本發明公開了一種新的強化學習遷移方法,即基于動作模式的遷移,利用已有的模型加速解決新的未知任務。該遷移方法可用于不同狀態空間任務間的遷移,即用簡單狀態任務的知識,幫助解決復雜狀態的任務。本發明定義了動作模式,并提出動作序列預測模型從源任務中提取該知識。對動作模式如何遷移到目標任務上,提出了兩種方法:基于內在獎賞機制的遷移和啟發式探索策略的遷移。
聲明:
“基于動作模式的強化學習遷移方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)