本發明公開了一種推薦模型的訓練方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:根據獲取的用戶行為數據生成訓練數據集;將訓練數據集輸入至待訓練模型中以得到第一預測結果;根據第一預測結果生成中間預測數據,并將中間預測數據輸入至待訓練模型中以得到第二預測結果;根據第一預測結果和第二預測結果計算反饋函數,并根據反饋函數更新待訓練模型以進行模型訓練。該實施方式基于強化學習的思想,將模型的預測結果引入模型訓練中,使得預測結果的誤差大大的減小,可以幫助模型加快收斂,減少模型迭代的次數,加快訓練效率,解決了僅有短期會話數據時無法很好地進行推薦的技術問題。
聲明:
“推薦模型的訓練方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)