本發明公開了一種基于強化學習防御滲透攻擊的方法及裝置、電子設備,該方法包括:(1)將滲透測試過程建模為馬爾可夫決策過程,其中所述馬爾可夫決策過程包括狀態、動作、獎勵值;(2)訓練智能體,其中所述智能體作為滲透攻擊方,訓練目標為生成當前最優滲透攻擊路徑過程;(3)將網絡環境中敏感主機的價值進行符號翻轉,并設置獲得目標敏感主機的Root權限時滲透攻擊的回合不結束,將滲透攻擊的回合的結束條件修改為回合中訓練步數達到了預定閾值;(4)將對主機價值的修改更新到步驟(1)的獎勵值中,利用訓練好的智能體對步驟(3)中的網絡環境進行防御訓練,重復防御訓練的過程直至訓練回合數達到預定閾值,得到防御滲透攻擊的策略。
聲明:
“基于強化學習防御滲透攻擊的方法及裝置、電子設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)