奖励是假的,能让Qwen提升25%性能却是真的
日期:2025-05-30 15:03:27 / 人气:24
虚假奖励下的RLVR增益现象
自RLVR(可验证奖励强化学习)被DeepSeek - R1带火后,相关研究不断涌现。华盛顿大学一群博士生的研究发现,即使使用错误的奖励信号对Qwen模型(尤其是数学版本)进行RLVR,也能显著提升MATH - 500的绝对准确率约25%,且与真实奖励效果相差无几,这颠覆了人们对RLVR的认知。
实验设计
为测试RLVR提升数学推理能力所需的最低监督下限,团队设计了一系列逐步简化的奖励函数替代标准真实奖励:

真实奖励:使用真实标签对可验证正确的回答给予奖励,作为奖励监督质量的上限。
多数投票奖励:微调前利用模型对训练集进行伪标注,对每个提示采样64个响应并选取多数答案,基于这些可能错误的标签进行奖励。
格式奖励:进一步弱化奖励信号,奖励所有包含至少一个非空
表达式的响应,完全忽略回答的数学正确性。
随机奖励:在奖励过程中不提供任何指导,直接给定一个固定概率超参数随机分配奖励。
错误奖励:故意提供错误的监督,只奖励错误答案。
实验结果
基于GRPO方法微调Qwen2.5 - Math模型后,使用不同奖励函数进行RLVR训练。结果表明,所有奖励函数(包括设计有问题的虚假奖励)均能在所有基准测试的前50步内显著提升数学推理性能。虚假奖励带来的性能提升与基于真实标签的RLVR提升幅度相差仅几个百分点。例如,在MATH500基准上,错误标签奖励训练可提升24.6%,真实答案的RLVR提升28.8%,随机奖励也能带来21.4%的性能提升。但这种增益仅对Qwen2.5系列模型有效,非Qwen模型在虚假奖励下性能几乎无变化甚至下降。
虚假奖励有效的原因
推理策略差异
研究团队通过分析Qwen2.5 - Math - 7B和OLMo2 - 7B的推理轨迹,发现预训练期间模型学习到的特定推理策略差异是关键。Qwen2.5 - Math - 7B频繁生成Python代码辅助思考过程(占所有回答的65.0%),尽管无法执行,但这种代码推理行为与答案准确率高度正相关,而其他模型如Llama、Qwen2.5 - 1.5B以及OLMo2 - 7B完全不生成代码,无法从此推理策略中获益。OLMo2 - 7B - SFT和Qwen2.5 - 7B虽也尝试代码推理,但该策略反而降低模型性能。
RLVR的增强作用
基于虚假奖励的RLVR可以有效增强代码推理频率,如Qwen2.5 - Math - 7B在进行RLVR训练后,代码推理频率在最初15步内从65%提升至约90%。此外,分析随机奖励提升性能的特殊情况时,研究人员发现GRPO的裁剪偏差可能会诱导随机奖励生成有益的训练信号,增加代码推理行为,从而实现性能提升。
研究启示与后续思考
模型差异考量
该项目由多位华盛顿大学NLP小组的华人学者完成。论文作者Stella Li在X上发帖介绍论文时,有网友留言指出在模型改进中也许“结果不重要,推理过程才重要”,Stella Li回复提出错误推理 + 正确答案或者正确推理 + 错误答案可能帮助OLMo2 - 7B - SFT实现类似Qwen在虚假奖励下的性能增益。同时,作者提醒现有以Qwen为中心的RLVR研究需在非Qwen模型上进一步验证,避免只关注单一模型数值提升而无实际意义。
对未来研究的意义
这项研究为RLVR领域带来了新的思考方向,打破了以往对奖励信号正确性的固有认知。未来研究可以进一步探索不同模型的推理策略差异,以及如何利用这些差异通过RLVR提升模型性能。同时,对于虚假奖励和随机奖励在模型训练中的作用机制,还需要更深入的研究,以更好地利用这些现象提升模型的推理能力。此外,在进行RLVR研究时,应充分考虑模型差异,避免研究成果的局限性。
作者:星欧娱乐-星欧注册登录平台
新闻资讯 News
- 杨颖带小海绵在澳门蹦极,粉丝夸...07-03
- 麦琳抄袭风波升级:道歉难平争议...07-03
- TVB视后林夏薇:破产传闻难挡...07-03
- 古装剧「古装扮相一眼惊艳」男星...07-03