本發明涉及目標搜索技術領域,具體涉及訓練動作規劃模型及目標搜索的方法,方法包括:獲取當前測試圖像、目標對象以及當前步數;獲取預測的邊界框以及目標對象的邊界框;基于預測的邊界框以及目標對象的邊界框的大小關系,確定當前動作規劃的獎賞;將當前測試圖像、目標對象以及當前步數輸入動作規劃模型,預測出下一步動作的概率分布及其對應的獎賞;根據當前動作規劃的獎賞、下一步動作的概率分布以其對應的獎賞,對策略網絡以及價值網絡的進行強化學習。在預測的邊界框以及目標對象的實際邊界框的基礎上,確定當前動作規劃的獎賞;利用預測結果對策略網絡以及價值網絡進行強化學習,以使得策略網絡以及價值網絡達到最優,具有較高的搜索效率。
聲明:
“訓練動作規劃模型的方法及目標搜索方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)