本發明公開了一種基于KNN的文本分類方法,適用于核安全級軟件驗證和可靠性驗證。本發明的文本分類方法包括訓練過程處理和測試過程處理,將訓練樣本數據集以原始文本自身和文本中所有的標題兩部分的信息來表示。依據文本由淺到深的特征層次結構構建兩個DBM模型,提取低維高區分度的深層特征并存儲,在測試過程中以適當的權重考慮文本標題給相似度的計算帶來的貢獻來確定待測試文本的類別。本發明充分利用文本標題的信息,比將淺層特征向量作為訓練集在分類性能上有顯著改善,同時能夠降低存儲需求和在線計算量,解決了特征向量高維災難問題,提高了分類的準確度,可以用于安全級軟件可靠性評價分析中的規則匹配和失效模式庫的建立。
聲明:
“基于KNN的文本分類方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)