本發明涉及一種基于強化學習的閑時交通指示燈控制方法,包括下列步驟:采用的SlimYOLOv3模型感知環境,解析場景,識別出場景中所有車輛類型的目標,并通過在每個目標周圍定義邊界框來定位這些目標的位置。采用基于DQN的強化學習方法訓練交通指示燈控制智能體:a)定義動作空間,交通指示燈以的概率隨機選取動作,以的概率采用貪婪算法選取動作;b)定義狀態空間:任意時刻觀測的路面狀態為各方向不同區間的車輛個數,觀測狀態值為一個六維的向量;c)定義獎勵函數:三個區間路段、和的懲罰權重分別為、和,獎勵值為各路段懲罰權重之和;d)采用基于DQN的強化學習方法學習出使得獎勵值最高的策略,得到性能優質的交通指示燈控制智能體。
聲明:
“基于強化學習的閑時交通指示燈智能控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)