深度強化學習

深度強化學習 在控制演算法與決策類的應用中採用深度學習

深度強化學習是機器學習的一個分支,它能協助您在面對複雜系統(如機器人和自主系統)時,實現控制器和決策系統。深度強化學習可讓您使用從模擬或物理系統動態產生的數據訓練類神經網路以學習複雜的行為。

使用 MATLAB®、Simulink® 和強化學習工具箱(Reinforcement Learning Toolbox),便可讓您執行從設計到部署決策系統的完整流程。利用我們的工具您可以:

  • 切換、評估和比較目前熱門的深度強化學習演算法
  • 使用強化學習設計應用程式(Reinforcement Learning Designer App)在介面中進行互動式訓練策略(policy)。
  • 在 MATLAB 和 Simulink 中建立訓練環境的模型,以降低硬體損壞的風險
  • 使用類神經網路以互動式介面操作或以撰寫程式的方式建立深度強化學習策略(policy)
  • 將深度強化學習策略部署至嵌入式設備或雲端

“5G 是我們致力保護不受到對抗性攻擊(adversarial attacks)的關鍵基礎設施。強化學習工具箱可讓我們快速評估 5G 弱點並找出降低影響的方式。”

Ambrose Kam, 洛克希德·馬丁 (Lockheed Martin)

為什麼選擇 MATLAB 和 Simulink 進行深度強化學習?

透過Reinforcement Learning Designer的視覺化互動介面完成工作流程

強化學習設計應用程式:視覺化互動介面

使用強化學習設計應用程式的互動式介面建立、訓練和模擬深度強化學習主體(agent)。 利用自動化引導 來選擇合適的主體(agent)類型。從現有熱門的深度強化學習演算法中進行選擇,例如深度確定性決策梯度模型(DDPG)以及SAC(Soft Actor-Critic)和近端策略最佳化 (PPO)等。

使用模型化基礎設計進行訓練、系統層級測試和部署

使用模型化基礎設計進行訓練、系統層級測試和部署

在Simulink(或MATLAB)中建立模擬訓練環境 ,以降低硬體損壞的風險。使用強化學習主體(agent)模塊組將環境模型與深度強化學習主體(agent)進行無縫整合。透過串聯或並聯進行策略訓練,再透過系統層級模擬以及軟體迴圈 (SIL)測試 / 硬體迴圈 (HIL) 測試 驗證其效果。並將經過訓練的策略部署到嵌入式裝置或是雲端。

互動式介面建立或自動產生類神經網路策略

互動式介面建立或自動產生類神經網路策略

無需成為設計類神經網路策略的專家,就可針對特定問題自動產生類神經網路架構來建立深度強化學習主體(agent)。訓練時可使用介面中原生建議類神經網路架構,也可使用深度網路設計應用程式(Deep Network Designer APP)(互動式介面)或深度學習工具箱(Deep Learning Toolbox)(程式撰寫)針對網路架構進行調整。也支援由第三方深度學習架構所訓練的類神經網路匯入和匯出互通。

深度強化學習範例和參考應用

範例和參考應用

透過設計機器人、自動駕駛、校準、調度和其他應用的控制器和決策演算法,開始使用深度強化學習。請參閱我們的參考範例,並嘗試單主體(single-agent)和多主體(multi-agent)訓練、線上和離線學習、無模型(model-free)和基於模型(model-based)的方法,以及基於梯度和演化的學習策略。

如何使用 MATLAB 和 Simulink 進行深度強化學習