本發明公開了一種基于深度強化學習的共享自行車調度方法,包括以下步驟:S1:劃分共享自行車的調度區域,得到調度區域單元,并確定共享自行車的運行環境變量;S2:確定共享自行車的調度變量;S3:構建共享自行車的車輛調度優化模型;S4:基于共享自行車的車輛調度優化模型,利用平均場理論構建共享自行車調度框架,并利用共享自行車調度框架完成共享自行車調度。本發明提出的基于強化學習的共享自行車調度優化方法有利于智能地解決隨機和復雜的動態環境下,大規模路網的共享自行車短期和長期調度優化問題。其考慮環境的供需變化和未來時間中調度決策與環境的交互影響,且不需要提前預測需求或進行人工數據處理,不受到需求預測計算效率和準確性的影響。
聲明:
“基于深度強化學習的共享自行車調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)