根據一方面,提供了一種訓練策略的計算機實現的方法,該策略供通信網絡中的強化學習(RL)代理(406)使用,其中,RL代理(406)用于根據該策略優化通信網絡的相應小區(404)中的一個或多個小區參數,該方法包括:(i)為通信網絡中的多個小區(404)中的每一個小區部署(1001)相應的RL代理(408),該多個小區(404)包括彼此相鄰的小區,每個相應的RL代理(408)具有策略的第一次迭代;(ii)根據策略的第一次迭代操作(1003)每個所部署(408)的RL代理,以調整或維持相應小區(404)中的一個或多個小區參數;(iii)接收(1005)與該多個小區(404)中的每一個小區的操作相關的測量;以及(iv)基于所接收的與該多個小區(404)中的每一個小區的操作相關的測量來確定(1007)策略的第二次迭代。
聲明:
“用于優化小區參數的策略” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)