本發明公開了一種互聯網地質數據檢索與獲取的方法,包括:將地質敘詞表轉換成EXCEL格式的電子版敘詞表;依據檢索“關鍵詞”,通過與電子版敘詞表比對獲取等級關系、等價關系、相關關系的關聯詞;利用相關性層級數的設置對關聯詞數量進行收斂控制;檢索關鍵詞和關聯詞,爬蟲程序依據檢索結果的頁面數據和爬取規則,爬取該頁面數據(主網頁)以及該頁面數據中每條網址鏈接的數據;對網頁數據進行地質主題相關性計算,確定相關的數據。通過發明方法對地質數據抽取,可實現地質信息和新聞的定期、定向的精確提取,解決了采用傳統數據爬取方法與地質大數據特性之間的矛盾,有效提升數據發現的全面性,可以高效的獲取互聯網地質相關數據。
聲明:
“互聯網地質數據檢索與獲取的方法及其裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)