本發明屬于多媒體圖像視頻場景文字識別領域,具體涉及了一種基于無錨框和提議框的場景文字檢測方法,旨在解決現有技術難以覆蓋變換多樣的文字且參數復雜,從而檢測效率低和泛化能力差的問題。本發明包括:構建模型并提取場景文字待檢測區域的高層卷積特征和低層卷積特征;通過升采樣和串聯進行高層卷積特征和低層卷積特征的融合,獲得卷積融合特征;使用無損失文字注意力機制將高層卷積特征攜帶的高層語義信息嵌入,獲得LTAM卷積融合特征;通過三個分支進行檢測輸出,并去除冗余矩形框,獲得最終的檢測結果。本發明無需預設錨框和提議框,簡單靈活、檢測性能優,檢測速度顯著超過多數方法。
聲明:
“基于無錨框和提議框的場景文字檢測方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)