本發明提供一種基于離線強化學習的供熱控制方法及系統,所述方法包括以下步驟:采集供熱數據,將供熱數據集輸入供熱模型;從供熱數據集中采樣條交互數據獲得四元組(s,a,r,s′),以時間步長從t=1到T步進行循環,訓練Gω模型;將訓練后的Gω模型部署至服務器,并通過定時任務,實施對一網和二網供水溫度進行預測,將預測結果下發至換熱站;并對Gω模型的效果進行監控。本發明將先進的離線強化學習算法應用于集中供熱控制系統,在無需與真實環境交互的情況下充分發揮了強化學習算法的優勢,避免了與環境交互時的低效采樣和昂貴成本;充分利用了歷史交互數據,相較于現有技術在理論和實際上都大大提高了控制算法的性能。
聲明:
“基于離線強化學習的供熱控制方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)