本發明提供了一種基于強化學習的實時競價廣告資源分配方法,包括:對歷史廣告數據進行統計分析,得到CTR;將得到的CTR進行加噪處理,得出AD Exchange和DSP對CTR的估值;按照不同等級預算限制將實時競價廣告印象分配問題建模為一組多級的馬爾科夫決策過程集合,對需要進行折算的變量進行折算;并將折算后的變量輸入到對應等級的DQN中;獲取每個DQN計算出的累積回報值;對每個DQN得到的累積回報值進行歸一化,通過對應的修正函數進行修正;將所有修正后的回報值進行加權,根據得到的累積回報值確定不同動作下的廣告資源分配策略,從廣告資源分配策略中選擇最優的廣告分配策略。本發明實現了在保證AD Exchange利益的前提下,讓DSP分配的資源更加合理使得收益更高。
聲明:
“基于強化學習的實時競價廣告資源分配方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)