本發明提供一種基于一致性文本增強的遠程監督關系抽取方法及裝置,該方法包括:按實體對和關系標簽對多個句子實例進行劃分,得到多個句子包;對每個句子包中的每個句子實例采用不同的文本增強方法,得到每個句子包中的每個句子實例對應的強增強樣本以及弱增強樣本;確定噪聲樣例,并通過無關系句子實例以及噪聲樣例的強增強樣本和弱增強樣本對關系預測模型進行訓練,得到訓練好的關系預測模型;利用訓練好的關系預測模型對待預測的句子包進行預測,獲得與其對應的關系標簽。通過本發明,通過一致性文本增強,能夠增加數據集規模,增強模型的泛化學習能力,讓“NA”類別和噪音樣例約束模型學習更多的監督信息。
聲明:
“基于一致性文本增強的遠程監督關系抽取方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)