本發明涉及一種基于編解碼網絡的圖像?文本多模態融合方法,屬于計算機視覺、自然語言處理、模式識別技術領域。該方法包括如下步驟:S1:在現有目標檢測數據集的基礎上對其進行手動標記生成文本信息,構建新的圖像?文本數據集,并將數據集劃分為訓練集、驗證集和測試集;S2:選擇適合的優化學習方法,設置相關超參數,將訓練集和驗證集通過編解碼網絡模型進行訓練;S3:訓練結束后,在測試集中任選一張圖片,輸入編解碼網絡模型,加載訓練好的模型權重,最終檢測出所對應的目標結果。本發明采用圖像?文本融合處理的方法,利用同一個事物的兩種不同類型的數據進行融合處理,能夠使網絡訓練時精確度更高,進而識別出相關所需讓目標。
聲明:
“基于編解碼網絡的圖像-文本多模態融合方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)