公開了使用強化學習代理來管理存儲在緩存中的數據,包括:確定關于緩存的當前狀態觀測集,其中基于對緩存的歷史緩存訪問來確定當前狀態觀測集;將當前狀態觀測集輸入到強化學習代理的行動者網絡,以獲得由行動者網絡輸出的動作,其中強化學習代理被配置為管理存儲在緩存中的數據;將當前狀態觀測集和動作輸入到強化學習代理的評論家網絡,以從評論家網絡獲得對應于動作的分數;使強化學習代理執行與管理存儲在緩存中的數據有關的動作;使用分數來更新行動者網絡;以及使用對應于動作的獎勵來更新評論家網絡。
聲明:
“使用強化學習代理管理存儲在緩存中的數據” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)