本發明公開了一種基于多智能體深度強化學習的TCP擁塞控制方法及裝置。所述方法包括:在傳輸控制協議TCP中,通過設置連續的統計區間,將多流競爭瓶頸鏈路的擁塞控制問題建模為馬爾可夫博弈過程,并利用深度強化學習,用神經網絡表示表示TCP的擁塞控制策略,在一個模擬環境中訓練出最優的擁塞控制策略,從根本上解決傳統啟發式擁塞控制算法在動態多變的網絡環境中的適應性問題及公平性問題。本發明方法使用在線變點檢測技術劃分統計區間,采用Actor?Critic深度強化學習框架,對多個智能體并行聯合訓練,直接對TCP擁塞控制進行建模和學習,從而生成一個最優的擁塞控制策略。
聲明:
“基于多智能體深度強化學習的TCP擁塞控制方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)