本發明提供一種基于地質本體的地質報告文本信息提取方法,包括步驟:S1、對地質報告文檔進行預處理操作,將文件類型轉換成數據源格式,并進行分句、分詞、去停用詞、以及詞性標注;S2、利用結構化信息構建地名詞典庫、地質實體詞典庫,在已有地質領域本體的基礎上進行擴充并形成地名本體和地質時間本體;S3、通過模式匹配以及規則匹配方法對地質報告文本進行地質實體信息、時空關系信息、以及屬性信息的抽取。本發明的有益效果:無需采用人工方式標注大量的訓練數據集,節省了人力、物力;對現有的信息抽取模型進行了抽象及改進,為其他領域的信息抽取提供了一定思路。
聲明:
“基于地質本體的地質報告文本信息提取方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)