本說明書公開了一種信息推薦方法、裝置、存儲介質及電子設備,本說明書實施例在進行信息推薦時,通過不同的強化學習模型輸出每種排布方式對應的不同的累積折扣獎勵期望分布,最后,根據每種排布方式對應的不同的累積折扣獎勵期望分布,確定目標排布方式,以目標排布方式排布各推薦信息以及各廣告,并展示給用戶。此方法中,由于累積折扣獎勵期望分布是基于用戶對同一排布方式展示的各推薦信息和各廣告執行指定操作行為的概率分布所確定的,每個強化學習模型的模型參數不同,這樣通過不同的強化學習模型預測同一排布方式的累積折扣獎勵期望分布,可以避免因用戶隨機行為導致獎勵隨機的問題,從而提高信息推薦的準確性。
聲明:
“信息推薦方法、裝置、存儲介質及電子設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)