摘要:精準、平穩停車是磁浮列車自動駕駛制動控制的重要目標。中低速磁浮列車停站制動過程受到電 - 液混合制動狀態強耦合等影響,基于制動特性機理模型的傳統制動控制方法難以保障磁浮列車的停車精度和舒適性。本文提出一種基于混合制動特征自學習的磁浮列車強化學習制動控制方法。首先,采用長短期記憶網絡建立磁浮列車混合制動特征模型,結合磁浮列車運行環境和狀態數據進行動態制動特征自學習;然后,根據動態特征學習結果更新強化學習的獎勵函數與學習策略,提出基于深度強化學習的列車制動優化控制方法;最后,采用中低速磁浮列車現場運行數據開展仿真實驗。實驗結果表明:本文所提出的制動控制方法較傳統方法的舒適性和停車精度分別提高 41.18% 和 22%,證明了本文建模與制動優化控制方法的有效性。

">

欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學術咨詢

讓期刊論文更省時、省事、省心

西南交通大學學報雜志投稿格式參考范文:基于制動特征自學習的磁浮列車強化學習制動控制

時間:

  中低速磁浮作為現有城市軌道交通的有益補充,具有安全低碳、靜音舒適等優點,在我國具有廣闊的應用前景。制動控制系統是磁浮列車自動駕駛系統(ATO)的重要子系統,在保障列車運行安全、停車精度和舒適性方面起到關鍵作用。為有效調節列車速度,中低速磁浮列車主要采用電液混合制動實現正常到站停車。由于電制動與液壓制動轉換過程狀態強耦合、液壓制動力強非線性等特點,傳統的列車制動控制方法難以保障中低速磁浮列車的停車精度和舒適性。因此,研究中低速磁浮列車電 - 液混合制動動態特性、混合制動優化控制方法,對提升磁浮列車停站精度和舒適性具有重要意義。

  目前,針對傳統列車制動過程的研究主要關注制動特性建模和控制算法方面。精確的制動模型和良好的控制算法是列車平穩、精準停車的重要保障,但傳統基于物理參數建模方法難以準確表征磁浮列車動態特性,模型誤差較大導致列車制動效果不佳。為準確描述列車制動特性,機器學習算法被廣泛用于列車數據驅動建模方面研究。

  近年來,強化學習算法憑借其強大行動決策能力和解決不確定環境下控制問題的優勢,在多個領域取得大量應用研究成果,也有不少學者嘗試將其用于列車運行優化控制。

  本文針對中低速磁浮列車自動駕駛混合制動問題,提出一種混合制動特征自學習的深度強化學習(BFS - DQN)磁浮列車制動優化控制方法。采用 LSTM 學習混合制動系統的動態特征,結合強化學習方法進行磁浮列車停站制動控制策略優化,并通過仿真實驗驗證其在中低速磁浮列車制動優化控制中的有效性。

  1 混合制動特征自學習方法

  中低速磁浮列車混合制動特征因電液混合制動狀態耦合、液壓制動非線性而動態變化,目前廣泛采用理論、靜態制動特征模型,難以在仿真實驗中準確反映強化學習的環境對 agent(制動控制器)的獎勵情況。在此,采用 LSTM 學習混合制動的動態特征,以準確描述強化學習的獎勵函數關系。

  1.1 中低速磁浮列車混合制動原理

  磁浮列車電 - 液混合制動遵循電制動優先、液壓制動補償的原則。ATO 發出制動指令,列車制動控制單元接收后計算全列車所需制動力,向牽引控制單元發送電制動申請值,并根據反饋的電制動實際值計算所需補充的液壓制動力,最后通過控制液壓夾鉗施加液壓制動力,實現列車減速與停車控制。

  1.2 混合制動力特征

  中低速磁浮列車制動過程受制動力和運行阻力影響,其運行阻力包括空氣阻力、渦流阻力、附加阻力等。空氣阻力與列車運行速度及車輛編組相關,集電器阻力和電磁渦流阻力與列車質量、速度有關,附加阻力主要包括坡道阻力和曲線阻力。由于電 - 液混合制動力實際值未知,將列車制動力特性用函數表示,建立基于牛頓方程的單質點列車制動模型。

  1.3 混合制動動態特征自學習方法

  中低速磁浮列車制動過程中,電制動響應存在延遲,液壓制動離散,且運行阻力變化,導致列車實際制動力與理論制動力存在差距,影響停車精度和乘坐舒適性。傳統機理模型難以準確描述列車運行動態,本文采用 LSTM 網絡建立磁浮列車數據驅動的制動模型,利用列車歷史制動數據進行制動特征自學習。通過均方根誤差方法建立損失函數并使其最小化,以準確預測列車未來狀態,驗證模型準確性。

  2 磁浮列車 BFS - DQN 制動控制方法

  深度強化學習算法融合了深度學習和強化學習各自優勢,本文提出 BFS - DQN 磁浮列車制動控制方法,通過學習磁浮列車制動特性提高強化學習控制效果。該方法先通過列車歷史運行數據訓練 LSTM 網絡,學習列車制動特性與動態環境的關系;然后將列車運行狀態作為強化學習算法輸入,制動等級作為動作輸出,設計獎勵函數訓練列車控制器學習最優控制策略;最后輸出合理制動力實現制動優化控制。

  2.1 狀態空間

  將預測到的列車運行狀態,即列車位置、速度和加速度組成的三維狀態空間作為強化學習智能體的觀測狀態,定義狀態空間,其中包含列車目標停車位置、電 - 液制動轉換起始速度、列車最大減速度等參數。

  2.2 動作空間

  選擇列車制動等級作為智能體的動作,定義動作空間,其中制動等級取值范圍為 0% - 100%,0% 表示惰行,100% 表示施加最大制動力。

  2.3 獎勵機制

  設計關于舒適性和精準停車的獎勵函數,通過加權求和得到總獎勵。舒適性獎勵函數根據單位時間內減速度的變化激烈程度描述乘客乘車體驗,精準停車獎勵函數根據列車實際制動距離與目標制動距離的差值描述停車精準性,還設置了懲罰函數對停車失敗和減速度劇烈變化的情況給予訓練失敗懲罰。

  2.4 學習策略

  定義價值函數描述智能體從開始到結束的預期未來總獎勵,列車制動控制器采用價值迭代方式學習最優制動策略。通過評估每個動作的價值,采取最大價值更新價值函數,經過多次價值迭代,價值函數收斂于最優價值函數,從而得到最優動作策略。

  2.5 學習過程

  數據生成:列車制動控制器觀測當前運行狀態,執行列車制動等級動作,列車狀態預測模型生成新狀態,環境根據獎勵函數計算狀態轉移獎勵。

  經驗回放:將狀態、動作和獎勵數據存入經驗池,訓練時從經驗池中隨機抽取樣本輸入主 Q 網絡和目標 Q 網絡,分別得到對應動作的 Q 值和目標值。

  網絡更新:BFS - DQN 中 Q 網絡通過特定公式更新參數權重,間隔一定訓練次數復制主 Q 網絡權重參數到目標 Q 網絡,經過多次循環訓練,主 Q 網絡收斂于目標 Q 網絡,列車制動控制器學習到最優制動策略。

  3 實驗結果與分析

  3.1 實驗設置

  以湖南省某條磁浮線路現場運營數據為例進行仿真驗證,列出仿真列車的主要參數,包括列車質量、線路最高限速、編組數量、最大常用制動力、最大常用減速度、線路最大坡度等。

  3.2 收斂性對比

  采用傳統 DQN 控制方法與 BFS - DQN 分別進行仿真,列出兩種算法的主要訓練參數,包括 LSTM 迭代次數、學習率、樣本批量、單次訓練最大步數、訓練最大次數、Q 網絡學習率、更新頻率、樣本大小、經驗池容量、折扣因子、貪婪率初始值和最終值等。通過觀察獎勵函數變化情況判斷算法是否收斂,結果表明 BFS - DQN 方法平均獎勵高于傳統 DQN 方法,制動特征自學習有助于提高網絡學習能力。

  3.3 舒適性和停車精度

  對比訓練過程中平均加速度變化和平均停車誤差變化情況,統計最后 5000 次訓練結果。結果顯示 BFS - DQN 在舒適性和停車精度方面比傳統 DQN 分別提高 8.67% 和 33.33%,表明基于 BFS - DQN 的制動優化控制方法更具優越性。

  3.4 實際運行數據驗證實驗

  將訓練好的列車控制器進行仿真測試,記錄 50 次測試的停車誤差數據,采用均方根誤差(RMSE)和標準差(SD)評價不同制動算法的性能。結果表明 BFS - DQN 制動控制算法表現最好,停車誤差小,離散程度低,穩定性高。同時對比 3 種制動策略下的制動曲線和減速度變化情況,發現 BFS - DQN 方法在減速度控制方面更合理,舒適性提高 41.18%。

  3.5 現場數據實驗驗證

  將目標制動距離設為不同值進行精準停車測試,統計 50 次測試的停車誤差分布情況。結果表明 BFS - DQN 在不同目標制動距離干擾下穩定性高于 DQN,且 BFS - DQN 算法滿足停車精度 ±30 cm 內的次數占比 100%,優于當前 ATO 制動策略和 DQN 方法。

  4 結論

  本文針對磁浮列車電 - 液混合制動問題提出的基于混合制動特征自學習的磁浮列車強化學習制動控制方法,經仿真實驗驗證,可幫助磁浮列車平穩度過電液制動轉換階段,減少縱向沖擊,保障乘客舒適性,提高列車到站停車精度。

  所提策略對不同目標制動距離的干擾具有穩定性和自適應能力,能根據列車運行狀態及時調整制動策略,控制列車輸出合理制動力,確保精準停車。

劉鴻恩;胡閩勝;胡海林,江西理工大學永磁磁浮技術與軌道交通研究院;江西省磁懸浮技術重點實驗室;北京全路通信信號研究設計院集團有限公司,202404