速途網6月5日消息(報道:李楠)近日,清華螞蟻聯合研發的全異步強化學習訓練系統AReaL-boba2(AReaL v0.3 )正式宣布開源。據了解,這一系統全面實現了異步強化學習訓練,完全解耦模型生成與訓練,性能效果不變的前提下,訓練速度對比上一版本最高提升2.77倍,GPU資源利用率大幅優化。研究人員使用這一系統在Qwen3 系列模型上做強化學習訓練,實現8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等benchmark上達到SOTA水準。 此外, AReaL-boba2還原生支持多輪智能體強化學習訓練,開發者可以根據自己的需求自由定制智能體和智能體環境,進行多智能體Agentic RL訓練。
尋找兼顧高效能、高效率的強化學習訓練方式,一直是從業人員持續面臨的課題。在傳統的強化學習訓練流程中,同步強化學習訓練每一個批次(batch)的數據都是由同一個模型版本產生,因此模型參數更新需要等待批次中數據全部生成完成才能啟動。由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,強化學習訓練必須等待批次中最長的輸出生成完才能繼續進行訓練,以及進行下一個批次的數據收集,造成極大GPU資源浪費。而異步強化學習(Asynchronous RL)將數據生成與模型訓練完全解耦,以不間斷的流式生成和并行訓練的計算方式,極大提高了資源使用率,天然適用于多輪次交互的Agent場景。業界認為,異步強化學習是一種重要的算法范式,將成為未來強化學習的重要方向之一。
在AReaL-boba2的工作中,研究人員通過算法系統co-design的方式實現了完全異步強化學習訓練(fully asynchronous RL),從根本上解決了同步強化學習的各種問題。AReaL–boba2生成任務持續流式進行以保證GPU資源始終滿載運行,杜絕了GPU空閑。AReaL–boba2的系統設計可以在保證穩定RL訓練的同時,參數同步的通信和計算花銷僅占總訓練時間的1%以內。此外,由于全異步RL中同批次數據可能由不同版本的模型產生,AReaL–boba2也對RL算法進行了升級,在提速的同時確保模型效果。
AReaL由螞蟻技術研究院和清華大學交叉信息研究院共同發起,是國內首個完整開源數據、代碼、模型、腳本的強化學習開源項目。目前AReaL已經開源了AReaL v0.1版、AReaL v0.2版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用128張H800 GPU 在1天訓練完成SOTA 1.5B推理模型訓練,256張H800 GPU 2天內完成SOTA 7B 推理模型訓練的效果。此前AReaL-boba項目也得到了來自海外開發者的高度認可,評價“AReal-boba通過開放SOTA推理模型的資源和透明的訓練方式,讓先進的AI推理技術平權化,降低了研究的門檻。 ”
AReaL團隊在技術報告中表示,該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數據智能實驗室的幫助。AReaL 的誕生離不開 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等優秀開源框架和模型的啟發。