本發明公開了以互聯網重復文檔反作弊需求為背景,以Simhash算法為文檔判重的核心算法為基礎對該算法獲取文檔特征的過程進行改進,將單詞意義作為衡量單詞權重的一個考量因素;針對64位文檔Simhash簽名,提供用戶維度、全文維度和黑庫維度的文檔判重服務,并可基于全文和段落兩種粒度進行文檔相似性比較;從理論上分析,文檔失效時間設置的越長,其在存儲系統中存儲的時間就越長,存儲空間變大,影響查詢效率,因此對請求耗時有影響;這也是系統設置對冷熱數據進行處理的原因。
聲明:
“基于互聯網海量文檔反作弊技術” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)