本發明公開了一種人工智能系統中流水行并行的GPU配置方法及系統,其針對共享GPU集群,并應用于神經網絡分布式訓練。為了解決共享GPU集群下流水行并行中GPU分配方案固定不變而導致無法動態調節GPU配置的問題,所述方法在下一次的訓練之前,根據靜態指標、動態指標得到若干新工作分區,在動態指標中加入GPU的可用帶寬,使得新工作分區能反應GPU的動態可用資源;再引入了元網絡預測每個工作分區的訓練速度來篩選工作分區,及引入強化學習來判斷是否更新當前的工作分區,通過上述GPU配置方法得到的工作分區能適應于GPU的動態可用資源,更合理的進行分布式訓練,有效提高GPU資源利用率以及保證后續神經網絡的訓練效率。
聲明:
“人工智能系統中流水行并行的GPU配置方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)