本發明涉及一種基于IP的高效爬蟲方法,包括以下步驟:(1)獲取代理IP,將IP放入可用性檢測隊列,請求在本地搭建的服務器,將高質量代理的IP放入普通IP池;(2)根據實際采集任務,制定指定網站使用的IP池;(3)對各個代理池的IP請求服務器,刪掉失效的IP。采用了本發明的基于IP的高效爬蟲方法,根據采集不同的網站,添加不同的指定網站使用的IP池,不同的網站用不同的IP池,能最大限度的利用IP,本發明節約了因無法獲取數據而頻繁切換IP的時間,大大提高了爬蟲效率,通過對指定網站使用的IP池監測就能很好解決該問題,提高利用率和效率。
聲明:
“基于IP的高效爬蟲方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)