編者按:本文來自微信公眾號 新智元(ID:AI_era),編輯:犀牛,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
最近,推理語言模型(RLMs)已經(jīng)成為主流。
最新發(fā)布的、性能最強的LLM大都是推理模型。
尤其是DeepSeek-R1的發(fā)布,更是引發(fā)了廣泛的社會影響,同時也點燃了研究社區(qū)對推理的熱情。
但是,DeepSeek-R1的一些實現(xiàn)細節(jié)還沒有完全開源,比如DeepSeek-R1-Zero以及蒸餾的小模型等。
因此,許多復制DeepSeek-R1的研究應運而生(圖1),試圖通過相似的訓練流程和完全開源的訓練數(shù)據(jù)來重現(xiàn)DeepSeek-R1的優(yōu)異性能。

這些研究探索了監(jiān)督微調(diào)(SFT)和基于可驗證獎勵的強化學習(RLVR)的可行策略,重點關注數(shù)據(jù)準備和方法設計,產(chǎn)出了不少寶貴經(jīng)驗。
為此,本文總結(jié)了近期的這些復現(xiàn)研究,以啟發(fā)未來的探索。

論文地址:https://arxiv.org/abs/2505.00551
本文的結(jié)構(gòu)大致對應DeepSeek-R1的訓練流程,介紹當前在SFT、RLVR以及其他增強推理能力技術方面的復制工作:
監(jiān)督微調(diào)提升語言模型推理能力:研究團隊全面梳理了通過監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)增強語言模型推理能力的相關研究。
用可驗證獎勵強化學習訓練推理語言模型:研究團隊介紹了近期通過可驗證獎勵強化學習(Reinforcement Learning from Verifiable Rewards, RLVR)訓練RLMs的研究,詳細闡述了訓練數(shù)據(jù)、學習算法和獎勵系統(tǒng)設計。
推理語言模型的更多發(fā)展方向:研究團隊注意到,盡管DeepSeek-R1推動了RLMs的訓練,但仍有許多監(jiān)督策略尚未探索。他們提出了RLMs的更多發(fā)展方向,包括獎勵建模和偏好優(yōu)化,并分析了當前RLMs的優(yōu)缺點,例如強大的分布外泛化能力和偶爾的過度思考。
通過監(jiān)督微調(diào)提升RLMs
推理數(shù)據(jù)集大多數(shù)從收集多樣化領域的問題開始,例如數(shù)學、科學、編程和謎題,數(shù)據(jù)來源包括現(xiàn)有的基準測試或網(wǎng)絡爬取。
在收集原始數(shù)據(jù)后,通常會進行多輪過濾以提升數(shù)據(jù)質(zhì)量,包括:
去重:通過嵌入相似性或n-gram方法去除重復數(shù)據(jù);
拒絕采樣:剔除低質(zhì)量數(shù)據(jù);
真值驗證:確保數(shù)據(jù)準確性。
為了保證數(shù)據(jù)的覆蓋面和豐富性,許多數(shù)據(jù)集在選擇過程中明確強調(diào)難度和多樣性,通常使用啟發(fā)式方法或模型通過率來優(yōu)先選擇較難的問題。
此外,大多數(shù)數(shù)據(jù)集依賴經(jīng)過驗證的思維鏈(COTs)或解決方案來確保正確性和質(zhì)量。
驗證方法因領域而異,例如:
數(shù)學問題通常通過Math Verify驗證;
編程問題通過代碼執(zhí)行或單元測試驗證;
通用任務則由大語言模型(LLM)作為評判者進行驗證。
這種結(jié)合領域驗證和選擇性保留的方法,使數(shù)據(jù)管理人員能夠提煉出高質(zhì)量的推理軌跡,從而更好地支持監(jiān)督微調(diào)。
雖然這些數(shù)據(jù)集覆蓋多個領域,但如表1所示,大多數(shù)數(shù)據(jù)集主要集中在數(shù)學和編程任務上。涉及更廣泛推理任務(如科學、邏輯謎題和開放性問題)的覆蓋率仍然相對有限。

值得注意的例外包括DeepSeek-R1和AM,它們在數(shù)據(jù)收集和蒸餾過程中納入了更廣泛的領域,旨在培養(yǎng)更通用的推理能力。、
長度分布
圖2展示了數(shù)據(jù)集的token長度分布情況。
盡管這些數(shù)據(jù)集的長思維鏈(CoTs)都來源于同一個教師模型——DeepSeek-R1,但它們的分布卻存在明顯差異。
例如,AM和Synthetic-1的數(shù)據(jù)集傾向于較短的序列,而Light-R1和Open-R1的分布范圍更廣,尾部更長,這表明它們包含更多復雜問題,這些問題通常會引發(fā)更長的思維鏈。

圖3中展示了常用數(shù)學推理數(shù)據(jù)集之間的交叉引用結(jié)構(gòu)。該圖清晰地呈現(xiàn)了數(shù)據(jù)集之間的依賴網(wǎng)絡和共享數(shù)據(jù),幫助研究人員更好地解讀結(jié)果,避免重復的訓練或評估設置。

圖中箭頭從源數(shù)據(jù)集指向包含其部分數(shù)據(jù)的目標數(shù)據(jù)集。以淡紫色高亮顯示的數(shù)據(jù)集包含從DeepSeek-R1提取的思維鏈(Chain-of-Thought)軌跡
性能比較
在實踐中,SFT階段對于讓基礎模型從更強的模型中學習高質(zhì)量推理軌跡至關重要。
表2展示了在常見數(shù)學推理基準(如AIME24/25和MATH500)上的SFT結(jié)果比較,突出不同數(shù)據(jù)集選擇和初始模型檢查點的影響。

雖然許多方法強調(diào)通過增加訓練樣本數(shù)量來提升性能,但LIMO和S1k-1.1表明,通過精心挑選的小規(guī)模數(shù)據(jù)集也能取得優(yōu)異成果。
訓練細節(jié)
對于復雜推理等長上下文任務,通常會調(diào)整模型配置中的RoPE縮放因子(θ)和最大上下文長度,以支持擴展的上下文能力。
例如,Open-R1將θ設為300,000,上下文長度設為32,768個token。常用的學習率包括1.0 × 10??和5.0 × 10??,批大小通常為96或128。
此外,通常采用打包(packing)技術來提高訓練效率。
RLVR在推理語言模型中的應用
RL數(shù)據(jù)集
DeepSeek-R1-Zero通過獨立的RLVR流程在推理和知識任務中取得了優(yōu)異表現(xiàn)。其RLVR過程中使用的高質(zhì)量精選數(shù)據(jù)集是成功的關鍵。
因此,多項復制研究探索了如何利用開源數(shù)據(jù)和強大模型高效創(chuàng)建訓練數(shù)據(jù)集的策略。
這些數(shù)據(jù)集涵蓋R訓練中可驗證的多種任務,主要聚焦于數(shù)學和編程問題解決的數(shù)據(jù)集。表3提供了這些數(shù)據(jù)集的統(tǒng)計概覽。

RL組件
隨著DeepSeek-R1-Zero和DeepSeek-R1的發(fā)布,DeepSeek展示了通過強化學習(RL)微調(diào)LLM以應對復雜推理任務的成功經(jīng)驗。
基于精心挑選的訓練數(shù)據(jù),相關研究主要集中在配置RL框架的關鍵部分,以實現(xiàn)卓越性能:采用高效的RL算法(如GRPO)以及設計獎勵機制。
表4提供了這些研究方法的比較。

表4總結(jié)了多個競爭性開源 DeepSeek-R1 復制研究在強化學習驗證任務(RLVR)中使用的算法和獎勵設計方案。為了便于比較,DeepSeek-R1 系列模型的相關信息被單獨列出
在基于結(jié)果-獎勵的RL方法中,PPO和GRPO是最常用的微調(diào)大語言模型的算法。
有趣的是,近期的一些復制研究對這些方法進行了各種改進,針對特定目標優(yōu)化了訓練效果。
研究團隊回顧了幾種代表性的基于RL的大語言模型微調(diào)算法,包括 REINFORCE、PPO、GRPO及其變體。此外,他們還梳理了這些方法的改進及其背后的動機,旨在清晰概述基于結(jié)果-獎勵的RL訓練方法的技術進步。
獎勵機制
獎勵是RL訓練的核心,因為它定義了優(yōu)化的目標,引導模型的行為。
一個設計良好的獎勵機制能提供清晰、一致的信號,幫助模型學習到有效的策略。
然而,獎勵模型常常容易被「獎勵欺騙」(reward hacking,指模型通過鉆空子獲得高分而非真正解決問題),因此近期研究更傾向于使用基于規(guī)則的結(jié)果獎勵系統(tǒng)。
這些系統(tǒng)通常分為三類:
準確性獎勵:準確性獎勵評估回答是否正確,通常給正確回答打 1 分,錯誤回答打 0 分或 -1 分。
格式獎勵:格式獎勵鼓勵回答遵循預定義的結(jié)構(gòu)或推理格式,通常給正確格式打 1 分,偏離格式則打 0 分或 -1 分。
長度獎勵:長度獎勵影響模型回答的詳盡程度。一些方法獎勵生成特定長度的回答,而另一些方法則鼓勵在保證準確性的前提下盡量簡潔。
采樣策略
直觀來說,在訓練過程中合理選擇樣本對RL的有效性至關重要。
一方面,課程學習方法通過逐步增加任務難度,提高了復雜樣本的利用率。另一方面,合理使用拒絕采樣技術可以提升樣本效率并穩(wěn)定訓練。
RLVR在其他任務上的應用
通過RLVR,DeepSeek-R1的復雜推理能力顯著增強,在復雜語境理解和問題解決等推理密集型任務中取得成功。
RLVR使大模型能夠在無需人工指導的情況下,通過可驗證的答案學習和執(zhí)行任務,激發(fā)其復雜推理能力。
受此啟發(fā),多項研究探索了RLVR在不同任務中的復雜推理范式。
邏輯推理:TinyZero和Mini-R1嘗試在倒計時游戲中重現(xiàn)DeepSeek R1的「靈光一現(xiàn)」時刻,使用簡單的基于規(guī)則的獎勵系統(tǒng)。
面向應用的實際任務:推理語言模型需要通過思考、規(guī)劃和反思來學習處理現(xiàn)實世界的應用型任務。
超越監(jiān)督的探索:通過強化學習過程,研究發(fā)現(xiàn)大模型展現(xiàn)出了令人驚喜且意想不到的能力。
這些結(jié)果凸顯了復雜推理語言模型通過RL訓練策略,超越監(jiān)督數(shù)據(jù)資源甚至人類能力的潛力。
更多發(fā)展方向
雖然DeepSeek-R1的成功推進了RLMs的訓練,但仍有許多監(jiān)督策略有待探索。
推理增強的替代方法 :旨在解決傳統(tǒng) RLVR 在捕捉中間步驟和對齊人類期望方面的局限性。
主要方向包括:
過程級獎勵建模 (Process-level Reward Modeling, PRM):對推理的中間步驟提供反饋,而非僅評估最終結(jié)果。例如rStar-Math使用過程偏好模型和自我演進,PRIME使用隱式PRM,僅依賴結(jié)果標簽進行訓練,更具可擴展性并減少獎勵欺騙。
偏好優(yōu)化策略 (Preference Optimization):特別是 直接偏好優(yōu)化 (Direct Preference Optimization, DPO),相比PPO或GRPO計算資源需求更少。一些研究探索使用DPO提升推理能力,如Light-R1、Iterative DPO、RedStar、DPO-R1。
泛化性:RLMs在學習推理能力時,能夠很好地泛化到域外任務。
持續(xù)預訓練(例如在數(shù)學領域)能顯著增強專業(yè)和通用推理能力。
監(jiān)督微調(diào) (SFT) 通過提供高質(zhì)量示例和結(jié)構(gòu)化歸納先驗,對泛化能力至關重要,為后續(xù)強化學習奠定穩(wěn)定基礎。精心策劃的高質(zhì)量數(shù)據(jù)尤為重要。
強化學習 (RL) 展示了強大的域外泛化潛力,甚至超越了模仿學習。經(jīng)過RL訓練的模型可以在不同任務、語言和模態(tài)上泛化,例如Llama3-SWE-RL和RL-Poet。像AGRO這樣整合On-policy和Off-policy經(jīng)驗的方法可以增強泛化能力。
安全性:推理語言模型面臨一些安全挑戰(zhàn),包括過度思考(生成過長推理鏈,增加成本,可能忽略環(huán)境反饋) 和獎勵欺騙(模型利用獎勵函數(shù)的漏洞或模糊性獲取高分)。
自我演進過程引入了失控和未對齊的風險。
越獄攻擊 (Jailbreaking) 是一個普遍關注的問題。推理增強的模型可能會犧牲安全性(「安全稅」)。
應對措施包括改進算法設計、訓練策略、對齊安全策略以及開發(fā)具有推理能力的防護模型。
多模態(tài)和多語言:
多模態(tài)推理語言模型:整合視覺、音頻等多種模態(tài)。當前多模態(tài)模型的推理能力通常弱于單模態(tài)模型。將單模態(tài)推理能力遷移到多模態(tài)是前景廣闊但具有挑戰(zhàn)性的方向。
多語言推理語言模型:主要挑戰(zhàn)在于某些語言資源的有限性。在英語中訓練的推理能力向其他語言泛化程度有限??赡苄枰獙iT的能力來促進跨語言的洞察或「頓悟」。未來的研究需要專注于更高效的跨語言訓練策略,特別是針對低資源語言。
結(jié)論
在本文中,研究團隊全面概述了受DeepSeek-R1啟發(fā)而進行的復現(xiàn)工作,特別重點關注了其背后的監(jiān)督微調(diào)和強化學習方法。
他們探討了開源項目如何整理指令微調(diào)數(shù)據(jù)集,如何實現(xiàn)基于結(jié)果獎勵的強化學習策略,以及如何設計旨在增強模型推理能力的獎勵系統(tǒng)。
除了總結(jié)當前各項工作的趨勢之外,還對該領域未來充滿希望的方向提出了自己的看法。這些方向包括將推理技能擴展到數(shù)學和編程任務之外,提升模型的安全性和可解釋性,以及改進獎勵機制以促進更復雜的推理行為。
團隊希望本次綜述不僅能捕捉到近期進展,還能為正在進行的研究提供堅實的基礎,并標志著向?qū)崿F(xiàn)通用人工智能邁出了更進一步。
參考資料:
https://arxiv.org/abs/2505.00551
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。







