現代自適應雷達具備自主模式切換和快速波形捷變能力,導致雷達信號狀態難以窮舉,傳統干擾方式效能下降。本發明實例研究了一種基于強化學習的干擾信號波形優化方法:首先對干擾決策過程進行馬爾可夫建模,在此基礎上構建雙層強化學習模型,通過兩個交互的Q?learning對干擾樣式和波形參數進行聯合優化。對抗過程中,在每段波束駐留時間內,對雷達信號進行工作模式檢測,外層Q?learning據此進行干擾樣式決策,并映射至時、頻域兩個內層Q表,其次評估干擾效果并更新外層Q表。而后對該波束駐留時間內的每個雷達脈沖進行參數估計,在干擾樣式的約束下基于內層Q?learning求解時、頻域干擾波形參數,生成干擾信號。最后計算時、頻域有效干擾系數,更新內層Q表。
聲明:
“基于強化學習的干擾信號波形優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)