本發明提供一種基于視覺和語義特征協作與強化學習的視頻摘要方法,包括將視頻文件分解成幀序列,按照幀的時間順序依次使用深度神經網絡提取語義特征和視覺顯著性特征;經過Bi?LSTM模型處理預測出各視頻幀被選擇為關鍵幀的初始概率;根據視覺顯著性特征提取出空間注意力得分,歸一化后利用調整因子對Bi?LSTM模型產生的初始概率進行調制得到調制概率;根據調制概率,確定語義特征與視覺顯著性特征均重要的關鍵幀,實現VSFB模型;將原始視頻分為多個獨立片段clip,計算選擇的關鍵幀與其他幀之間索引調整的差異性獎勵和代表性獎勵,依據強化學習獎勵機制,動態調整初始概率,加強VSFB模型在視頻摘要中的學習,最后得到理想模型,實現從任意待處理視頻中的摘要提取。
聲明:
“基于視覺和語義特征協作與強化學習的視頻摘要方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)