本發明公開了一種基于多粒度獎勵機制的多注意力融合網絡的圖像字幕生成方法,它解決了在基于強化學習獎勵機制的圖像字幕生成方法中,每個生成單詞不同重要性的問題。本發明首次提出了一種基于多粒度獎勵機制的多注意力融合網絡用于圖像字幕生成,它包括多注意力融合模型、單詞重要性重評估網絡和標簽檢索網絡。多注意力融合模型用作基于強化學習的圖像字幕方法的基線;單詞重要性重評估網絡通過估算生成標題中每個單詞的不同重要性而被用于獎勵重估;標簽檢索網絡能夠從一批字幕中檢索相應的真實標簽作為檢索獎勵,然后通過訓練該網絡以最大化獎勵的方式生成更好的字幕。本發明在MSCOCO數據集上進行了大量的實驗驗證,取得了非常有競爭力的評價結果。
聲明:
“基于多粒度獎勵機制的多注意力融合網絡的圖像字幕生成方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)