本發明公開了一種面向深度強化學習的策略異常檢測方法和裝置,包括:利用采集的狀態樣本對DDPG網絡進行強化學習;構建包含行動者網絡和判別器的模仿學習網絡,利用采集的狀態樣本和專家狀態動作對對模仿學習網絡進行訓練;利用參數優化的DDPG網絡基于輸入的狀態樣本生成狀態動作對,利用參數優化的判別器對狀態動作對進行判別,當判別結果為1時,認為動作未受到攻擊;當判別結果為0時,認為狀動作存在異常;當動作存在異常時,且動作幅度差異在閾值范圍外,說明動作受到攻擊,利用模仿學習網絡生成的狀態動作對替換DDPG網絡生成的狀態動作對,以指導DDPG網絡在后續階段的強化學習過程中做出正確決策。
聲明:
“面向深度強化學習的策略異常檢測方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)