本發明公開了一種基于多級預測架構的視頻描述方法及系統,屬于深度學習中計算機視覺以及自然語言處理領域,本發明要解決的技術問題為如何生成細粒度的語言描述,避免模型復雜度提高造成梯度消失,同時從根本上解決曝光偏差的難題,避免發生錯誤累計,造成最終結果的失效,采用的技術方案為:該方法步驟如下:S1、獲取原始數據;S2、使用nltk對描述進行篩選分詞;S4、預訓練YOLO;S5、通過多層解碼器LSTM及堆疊注意力機制得到語言描述;S6、將得到的語言描述分別與真實標注計算交叉熵,同時將得到的語言描述的和作為總體損失。該系統包括原始數據獲取模塊、篩選分詞模塊、單詞表制作模塊、YOLO預訓練模塊、語言描述獲取模塊及梯度計算模塊。
聲明:
“基于多級預測架構的視頻描述方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)