本發明提供了一種基于多智能體強化學習的惡意軟件檢測方法及裝置,其中方法包括:S1對惡意軟件樣本進行提取PE特征的操作;S2檢測智能體對PE特征進行檢測,如果檢測結果為惡意則執行S3,如果檢測結果為良性則執行S5;S3操作智能體對惡意軟件進行變體操作;S4將經過變體操作的惡意軟件變體作為惡意軟件樣本,返回執行S1;S5判斷檢測智能體是否成功檢測出惡意軟件,如果未成功檢測出惡意軟件,則對檢測智能體進行懲罰操作,對操作智能體進行獎勵操作;如果成功檢測出惡意軟件,則對檢測智能體進行獎勵操作,對操作智能體進行懲罰操作;S6如果訓練結束,收斂模型,存儲檢測智能體的檢測策略以及操作智能體的操作策略。
聲明:
“基于多智能體強化學習的惡意軟件檢測方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)