本發明涉及一種動態檢測失效流量的網絡爬蟲方法,包括以下步驟,首先通過分析網絡請求信息構建動態檢測失效流量模型的數據集,然后設計出動態檢測失效流量的方法,接著對URL隊列中的信息進行讀取并且對Cookie等信息進行封裝后發送請求,提取返回數據信息,并對返回數據信息進行失效流量檢測,最后對重復返回數據信息進行處理,如是有效數據則持久化存儲。本發明彌補了現有聚焦爬蟲和增量爬蟲在Cookie失效問題的處理上和數據重復處理上的不足之處,降低了爬取數據的失效和重復概率,對爬蟲系統的設計提供了可借鑒的方案,提高了爬蟲系統的整體性能。
聲明:
“動態檢測失效流量的網絡爬蟲方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)