本發明涉及一種基于行動者評論家強化學習算法的循環網絡人機對話方法。該系統由兩個子系統構成:對話生成系統和情感分析系統。對話生成系統基于門循環單元網絡模型,使用有標簽的對話數據集進行訓練。進一步地,我們對經過訓練的模型使用強化學習中的行動者評論家算法進行參數調優;即,我們使用已被訓練的模型建立兩個網絡,分別稱之為“行動者”網絡和“評論家”網絡;進一步地,為了減少訓練時間、提高資源的利用率,我們創建了多個進程,向每一個進程分配一對“行動者”和“評論家”。
聲明:
“基于行動者評論家強化學習算法的循環網絡人機對話方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)