本發明涉及一種互聯網資源定向獲取方法,該方法包括步驟:確定抓取網站范圍、要獲取的資源信息及所屬的資源類別;根據資源類別,通過人機交互在每個抓取網站上獲取與資源類別相對應的有效網頁;依據抓取網站及有效網頁的統一資源定位符、網頁結構及要獲取的資源信息,生成要獲取的資源信息的配置信息;在抓取網站上抓取與配置信息相匹配的文本信息并保存;通過人機交互對抓取的信息進行深度標引;對深度標引后的信息建立索引供用戶檢索使用,該系統包括定向獲取單元和深度標引單元。利用本發明進行搜索引擎,解決了常用搜索引擎方法所造成的大量垃圾信息、資源重復、資源無組織性及網頁快照失效的問題。
聲明:
“互聯網資源定向獲取方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)