仅经由过程强化进修,就能超出 DeepSeek!上海 AI Lab 提出了基于成果嘉奖的强化进修新范式 ——从 Qwen2.5-32B-Base 模子动身,仅经由过程微协调基于成果反应的强化进修,在不蒸馏超年夜模子如 DeepSeek-R1 的情形下,就能超出 DeepSeek-R1-Distill-Qwen32B 跟 OpenAI-O1 系列的超强数学推感性能。团队发明,以后年夜模子数学推理义务面对“三重门”困局:稀少嘉奖窘境:终极谜底对错的二元反应,使庞杂推理的优化变得艰苦部分准确圈套:长头脑链中局部准确步调反而可能误导模子进修范围依附魔咒:传统蒸馏方式迫使研讨者堕入”参数范围武备比赛”因而,研讨团队从新审阅了以后基于成果嘉奖的强化进修算法,经由严厉的实践推导与证实,从新计划了一个新的成果嘉奖强化进修算法,并在这个进程中得出了三点主要论断:对正样本:在二元反应情况下,经由过程最佳轨迹采样(BoN)的行动克隆即可进修最优战略对负样本:须要应用嘉奖重塑来保护战略优化目的的分歧性对长序列:差别的序列局部对成果的奉献差别,因而须要更细粒度的嘉奖调配函数,这个函数能够经由过程成果嘉奖习得艰深来说,就是经由过程对准确样本模拟进修,过错样本偏勤学习,要害步调重点进修,无需依附超年夜范围的模子(比方 DeepSeek-R1)停止蒸馏,仅经由过程强化进修即可到达惊人的后果。除此之外,团队也对差别出发点模子停止了强化进修练习对照跟剖析,发明强化进修的出发点模子跟练习数据散布对终极的模子后果也很主要。因而,研讨团队将 RL 练习的数据、出发点跟终极模子一同完全开源,来推进社区的公正比拟跟进一步研讨。名目链接已放文末。重新计划成果嘉奖强化进修针对数学推理义务中强化进修面对的稀少嘉奖跟部分准确困难,团队提出新的战略优化框架 OREAL。经由过程实践翻新实现针对性的算法改良,在用试验阐明“怎样做更好”之前,起首论证“为什么这么做更好”正负样本嘉奖重塑,处理稀少嘉奖窘境在数学推理义务的采样流程中,团队经由实践剖析推导,提出中心看法:在二元反应机制下,采样恣意数目包括准确谜底的 BoN(Best-of-N)设置,其准确轨迹的散布存在分歧性特点。这一发明标明,经由过程直接行动克隆(behaviorcloning)采样失掉的准确轨迹,曾经形成了正样本练习中的最优设置。在对正样本做模拟进修的基本上,团队提出直接处分负样本会招致梯度偏向成绩,对负样本的练习准则应该是保护优化梯度情势与进修 BoN 散布分歧。经由过程深刻剖析正负样本的练习梯度,研讨者们提出了基于均匀正确率 p 的嘉奖重塑因子来保护上述分歧性,为 GRPO 等算法的改良供给了实践根据。这种设置使模子既能无效接收胜利教训,又能准确辨认要害过错界限,对练习机能有显明辅助。成果嘉奖「因果溯源」,跳出部分准确圈套针对庞杂的长推理链成绩,OREAL 翻新性地计划了 token 主要性估量器。经由过程构建序列累计情势的嘉奖函数,咱们将成果嘉奖逆向剖析到每个推理步调(见上面的 token-level RM 热力求)。这种方式可能准确定位中心过错步调,在练习时实现更精致的梯度更新,明显晋升了模子在长序列义务中的表示。OREAL 框架将多少项认知组合起来,团队提出的最优强化进修战略能够归纳综合为:在准确样本上模拟进修,在过错样本上偏勤学习,对要害步调做重点进修。经由过程公道的剖析跟实际,一步步将强化进修机能推到最佳程度。强化进修超出蒸馏,解脱范围依附魔咒团队在 7B 跟 32B 两个范围的模子上仅应用 4 千条高品质练习样本停止了练习跟测试,在 7B 量级上,Oreal-7B 在 MATH-500 上获得了 91.0 的 pass@1 正确率。这是初次经由过程强化进修而非蒸馏方式到达了如斯高的精度。这一成就不只为基于 RL 的方式建立了新的里程碑,还超出了更年夜参数目的模子,包含 QWQ-32B-Preview 跟 OpenAI-O1-Mini。别的,将 Oreal 利用于此前最佳的 7B 模子(DeepSeek-r1-Distill-Qwen-7B)后,失掉的新模子 OREAL-DSR1-Distill-Qwen-7B 在 MATH-500 上获得了 94.0 的 pass@1 精度,创下了 7B 模子的记载。千问的基座,经由 DeepSeek 的蒸馏练习,再经由上海 AI Lab 的强化进修练习,到达了中国原翻新高度。对 32B 模子,Oreal-32B 在 MATH-500 上也到达了 95.0 的分数,超出了同级其余 DeepSeek-r1-Distill-Qwen-32B,实现 32B 模子的新 SOTA。One More Thing最后,研讨团队还对照了差别基座模子下的机能表示,发明差别机能出发点的战略模子 RL 后机能下限是差别的,出发点模子越强,RL 后的机能越好。而且,只管在多个基座模子上,年夜局部 benchmark 机能都市在 RL 后有所晋升,偶然也会呈现持平(OREAL-32B 在 AIME2025-I)或许机能降落(比拟于 DSR1-Distill-Qwen-7B 在 AIME2024)。研讨以为,这些情形的呈现可能与练习语料的品质、难度跟数目等方面筹备的不敷充足有关,这也给将来的研讨留下了空间。因而,除了强盛的 RL 算法,团队还提出两个要害要素对 RL 在数学推理义务中的胜利至关主要:强盛的出发点模子是 RL 能够无效激起模子潜伏才能的条件。在 RL 阶段应用的数据也必需在品质、难度、数目跟多样性方面都失掉充足保障。高品质的数据集可能让模子经由过程面临普遍的挑衅跟进修机遇,充足施展其潜力。模子数据片面开源,助力强化进修研讨研讨团队同时也留神到,只管 DeepSeek-R1 的呈现激发了社区对年夜言语模子强化进修的进修跟研讨热忱,各人应用的练习出发点模子、练习数据、练习算法跟超参细节都不尽雷同,影响了算法跟模子机能的清楚比拟。因而,研讨团队将全部 RL 练习进程顶用到的练习数据、出发点模子跟 RL 后模子都停止了片面开源,练习代码也将开源到 XTuner。名目链接: