本發明公開了一種聚合物品牌切換的控制方法,包括:獲得離線優化軌跡作為系統行為的觀測樣本集;利用決策樹的非參數建模方法基于所述觀測樣本集建立Q函數的學習模型;基于所述Q函數的學習模型獲得最優控制策略并予以實施;收集歷史操作軌跡補充到所述觀測樣本集中,并重復以上步驟,直到停止學習。本發明基于動態批次強化學習的優點,根據觀測到的樣本數據,借助決策樹的建模方法,學習Q函數并從中得到平穩的閉環最優策略。
聲明:
“聚合物品牌切換的控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)