本申請實施例提供了一種響應消息輸出方法、裝置、存儲介質和電子設備,所述響應信息輸出方法,所述方法包括:獲得當前節點的信息;將所述當前節點的信息輸入響應節點預測模型,以確定所述當前節點對應的目標響應節點;輸出所述目標響應節點的信息;其中,所述響應節點預測模型是根據不同節點之間的轉移關系,對預設模型進行多次強化學習訓練所得到的模型,每次強化學習訓練的獎勵值是根據所述預設模型本次預測的響應節點與預設期望響應節點之間的匹配度確定的。在模型針對每次輸入而得到的輸出結果的基礎上,對模型施加即時獎懲,以使模型根據獲得的即時獎懲進行迭代更新,從而提高強化學習的效率。
聲明:
“響應信息輸出方法、裝置、電子設備及可讀存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)