本說明書實施例提供一種利用深度強化學習預測用戶行為的方法和裝置,其中方法包括,首先獲取當前用戶的特征數據作為深度強化學習的當前環境狀態s,該特征數據至少包括,當前用戶的資金相關數據。接著,將該特征數據輸入深度神經網絡,該深度神經網絡被訓練為,至少根據各種備選借貸動作a對應的獎勵分數r,確定在當前環境狀態s下,分別采取各種備選借貸動作,對應預期得到的各種累積獎賞Q;其中,各個備選借貸動作包括借款數額,借款時間和借款利率,對應的獎勵分數r至少根據借款數額,借款時間和借款利率而確定。然后,根據得到的各個累積獎賞Q,在各種備選借貸動作中進行選擇,作為預測的當前用戶的借貸動作。
聲明:
“利用深度強化學習預測用戶行為的方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)