{label:top}
首页 >> 新秀> 正文

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

来源:新秀发布时间:2025-09-09 17:55:32
浏览:81639

清华和上交的套公式最新论文中,上演了一场“学术打假”的推理戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的神器上交主流观点提出了相反的意见。

通过一系列实验,清华他们证明引入强化学习的大最大模模型在某些任务中的表现,竟然不如未使用强化学习的新研型更广州中学绯闻排名模型。

论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的真推作用,尤其是套公式在赋予模型超越自身原有能力方面,效果可能并非像人们普遍认为的推理那样“无懈可击”。

RL 是神器上交推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

消息一出,网友们纷纷下场站队。大最大模

有人认为这篇文章抓住了 RL 自身的新研型更漏洞,虽然提高了采样效率,真推但它似乎在推理方面存在不足,套公式未来我们需要新的方法来释放 LLM 的全部潜力。

RL 是<strong>重庆理工大学偷拍视频排名</strong>推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

也有人表示,或许强化学习实际上限制了模型开发新推理行为的能力。真正的推理增强可能需要蒸馏等方法。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

质疑声之外,RL 的追随者也在为“信仰”发声:这种说法是错的,验证远比生成简单的多。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

也有网友表示,这更像是奖励结构的缺陷,而非 RLVR 本身的问题。如果用二元奖励结构,出现这种情况可以理解。但我们可以调整奖励结构来缓解这个问题,甚至还能激励更好的推理。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

强化学习:擅长加速,不擅长开路

实验中,研究人员在三个具有代表性的领域进行了实验,来评估 RLVR 对基础模型和 RLVR 模型的推理能力边界的作用。

在数学任务实验中,研究团队在 GSM8K、MATH500 和 AIME24 等基准上评估了多个大语言模型系列(如 Qwen-2.5 和 LLaMA-3.1)及其经过 RL 训练的变体。他们通过分析 pass@k 曲线,比较了基础模型与 RL 模型的表现,发现虽然 RL 在低 k 值下提升了模型的准确性,但在高 k 情况下却显著降低了问题的覆盖范围。

此外,研究者还手动审查了模型生成的 CoT(Chain of Thought)推理过程,以确认正确答案是推理得出而非纯属运气。最后,他们还研究了采用 Oat-Zero 方法训练的模型,并对信息集进行了过滤,剔除容易猜测的问题,从而聚焦于更具挑战性的样本。

整体结果显示,尽管 RL 能在初始准确率上带来提升,基础模型在推理覆盖率方面仍表现更为稳健。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

在编码任务实验中,研究团队在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基准上评估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 训练模型 CodeR1-Zero-Qwen2.5-7B。他们通过 pass@k 指标来衡量性能,并根据预定义的测试用例评估模型的正确性。

结果显示,RLVR 提升了单样本 pass@1 的分数,但在较高采样数(k = 128)时,模型的覆盖率有所下降。与此相比,原始模型在较大 k 值下表现出了持续改进的潜力,而 RLVR 的性能则趋于平稳。这表明,尽管 RLVR 提高了模型的确定性准确性,但在探索多样性方面存在一定的限制。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

在视觉推理实验中,研究团队在过滤后的视觉推理基准(MathVista 和 MathVision)上评估了 Qwen-2.5-VL-7B,删除了多项选择题,聚焦于稳健的问题解决能力。RLVR 在视觉推理任务中的表现提升与数学和编码基准中的改进相一致,表明原始模型已能够解决广泛的问题,即便是在多模态任务中也同样如此。

跨领域的一致性表明,RLVR 提升了模型的推理能力,同时并未从根本上改变模型的问题解决策略。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

推理能力的边界

使用单次通过的成功率或平均核采样衡量模型推理能力边界的传统指标存在关键缺陷。如果模型在少数几次尝试后未能解决难题,但却本可以通过更多次的采样获得成功,此时其真实推理潜力可能会被低估。

如果为基础模型投入大量采样资源,它的性能能否与经过强化学习训练的模型相匹配?

为精准评估大语言模型的推理能力边界,研究团队将代码生成领域常用的pass@k指标拓展至所有可验证奖励的任务。针对一个问题,从模型中采样k个输出,若至少一个样本通过验证,该问题的pass@k 值为1,否则为0。信息集上的平均 pass@k 值反映了模型在 k 次试验内可解决的信息集问题比例,能严格评估 LLM 的推理能力覆盖范围。

直接按问题采样k个输出计算pass@k可能导致高方差。他们采用无偏估计法,对评估信息集D中的每个问题生成 n 个样本(n ≥ k),统计正确样本数。对于使用编译器和预定义单元测试用例作为验证器的编码任务,pass@k 值能准确反映模型是否能解决问题。

然而,随着 k 增大,数学问题中“黑客”行为可能凸显,即模型可能生成错误的推理过程,却在多次采样中偶然得出正确答案,这一情况常被以往指标忽视。为此,他们筛选出易被“黑客”攻克的问题,并手动检查部分模型输出的 CoT 正确性。结合这些措施,他们严格评估了 LLM 的推理能力极限。

当强化学习不再“强化”

清华与上交的这篇论文,为当前业界广泛推崇的强化学习范式敲响了警钟。让我们不得不重新思考强化学习在大模型训练流程中的真正角色。

我们也不能将模型的“能力”与“效率”混为一谈。能力,指的是模型是否拥有解决某类问题的潜质与逻辑链条;效率,则是在给定的能力范围内,模型能以多快、多稳、多省资源的方式得出答案。

强化学习或许确实能够提升模型在已有能力基础上的输出表现(比如在低采样次数下更快给出正确答案),但这并不代表它为模型带来了新的推理路径或更复杂问题的解决能力。相反,在高采样场景中,RL 带来的“收敛性”可能牺牲了答案的多样性,从而错失了解决更多难题的机会。

雷峰网(公众号:雷峰网)认为,强化学习更像是一种能力调控器,而非能力创造器。它可以让模型更擅长做已经能做的事,但难以让模型做出“原本不会的事”。正因如此,若将 RL 简单视为提升模型通用智能的万能钥匙,未免过于乐观。接下来的工艺路线,可能需要更多关注基础模型在表示能力、知识组织与推理路径构建等方面的设计,而非过度依赖下游的策略微调。

总的来说,这项研究的意义不在于“RL 无用”的结论,而在于它揭示了在过热预期背后,强化学习真正适用的边界。这或许会促使研究者和企业在制定大模型优化方案时,回归问题本质,用更清晰的标准衡量“能力的提升”究竟意味着什么。

参考链接:

https://arxiv.org/pdf/2504.13837

https://x.com/iScienceLuvr/status/1914171319970848942

https://limit-of-rlvr.github.io/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

风事风

更多 >
  • 62岁李连杰突发,已交代身后事
    更新:2025-09-09 17:50
  • “南京红老头”已被警方抓获
    更新:2025-09-09 16:47
  • 抖音辟谣:“花费9位数与周杰伦签约”为谣言
    更新:2025-09-09 15:52
  • “丹娜丝”携强降雨继续作用南方 北方闷热“上线”
    更新:2025-09-09 15:25

热门文章

  • 最后冲刺! 人身险产品切换倒计时
    最后冲刺! 人身险产品切换倒计时

    最后冲刺! 人身险产品切换倒计时

    每经记者 袁园 每经编辑 廖丹“再奋斗最后一周,加油!”周一8月25日)早上,保险代理人王明化名)发了一条朋友圈。他的一天从清晨开始,奔波于客户拜访和咨询之间,语调急切却充满干劲。和王明一样,成千上万 ...

  • 全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播
    全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播

    全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播

    来源标题:全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播7月9日,全国首部全面展现正当防卫案例的悬疑剧《正当防卫》在爱奇艺迷雾剧场正式开播。该剧由李云亮执导,贾东岩、武瑶任 ...

  • 濮存昕龚丽君再续“牌局” 暌违五年《洋麻将》重登人艺“牌桌”
    濮存昕龚丽君再续“牌局” 暌违五年《洋麻将》重登人艺“牌桌”

    濮存昕龚丽君再续“牌局” 暌违五年《洋麻将》重登人艺“牌桌”

    来源标题:濮存昕龚丽君再续“牌局” 暌违五年《洋麻将》重登人艺“牌桌”《洋麻将》剧照。 李春光摄一桌,二椅,两位老人,十四把扑克牌。整个演出,虽然只有一个场景,两个演员,却有万千人生况味在油画质感的舞 ...

  • 乌克兰声称已拘留两名中国公民 外交部回应
    乌克兰声称已拘留两名中国公民 外交部回应

    乌克兰声称已拘留两名中国公民 外交部回应

    财联社7月10日电,据环球时报,有记者提问称,乌克兰昨天表示已拘留两名中国公民,指控他们试图将导弹技术走私出境,请问中方对此有何评论?对此,发言人毛宁表示,我们还在核实了解有关情况,如果涉及中国公民, ...

  • 突发!SASI全面开火!
    突发!SASI全面开火!

    突发!SASI全面开火!

    刚刚。SASI发歌了。就在刚刚,SASI正式发歌,火药味拉满。“上了一辈子节目”“所有说我们学黑人的,好像你boombap不是黑人的”而有网友认为,SASI歌中所指,或许和秃子有关。在此之前,秃子点名 ...

  • 公职人员禁不住境外间谍美色,被以私密照片为要挟
    公职人员禁不住境外间谍美色,被以私密照片为要挟

    公职人员禁不住境外间谍美色,被以私密照片为要挟

    来源:央视新闻客户端记者从国家保障部了解到,近年来,境外间谍情报机关对我开展渗透窃密活动愈发活跃,他们将我公职人员作为重点围猎的目标,精心布局,因人下套。个别公职人员因立场信念缺失、纪律观念弱化、规矩 ...

  • 乌克兰声称已拘留两名中国公民 外交部回应
    乌克兰声称已拘留两名中国公民 外交部回应

    乌克兰声称已拘留两名中国公民 外交部回应

    财联社7月10日电,据环球时报,有记者提问称,乌克兰昨天表示已拘留两名中国公民,指控他们试图将导弹技术走私出境,请问中方对此有何评论?对此,发言人毛宁表示,我们还在核实了解有关情况,如果涉及中国公民, ...

  • 冯德莱恩对中国提出三项要求,外交部回应
    冯德莱恩对中国提出三项要求,外交部回应

    冯德莱恩对中国提出三项要求,外交部回应

    【环球时报-环球网报道 记者李萌】在7月9日外交部例行记者会上,有记者提问称,欧盟委员会主席冯德莱恩昨天对中国提出了三项要求,其中包括与俄罗斯的合作。中方对此有何评论?对此,发言人毛宁表示, 中俄之间 ...

风集讯

更多 >
  • 62岁李连杰突发,已交代身后事
    62岁李连杰突发,已交代身后事

    不过大梦一场空封面 I 李连杰抖音作者 I 李东阳报道 I 李东阳朋友圈有关李连杰,近些年舆论场散落的大多是针对其衰老以及“被死亡”的猜测。在那个崇尚英雄的年代,李连杰塑造的武侠世界是几代人共同的宝贵 ...

  • 全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播
    全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播

    来源标题:全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播7月9日,全国首部全面展现正当防卫案例的悬疑剧《正当防卫》在爱奇艺迷雾剧场正式开播。该剧由李云亮执导,贾东岩、武瑶任 ...

  • 《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!
    《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!

    来源标题:《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!友情不惧时间,快乐永不打烊。由抖音和傲椒文化联合重磅推出的全女嘉宾治愈系旅行综艺《姐妹不打烊》已于6 月 10 日 ...

  • 网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线
    网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线

    来源标题:网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线近日,网易云音乐正式推出BEATSOUL激励计划,推出“播放分成+云梯激励+年度奖金”三重支持体系,为Bea ...

  • 美大豆协会呼吁尽早同中国达成协议缓解豆农危机
    美大豆协会呼吁尽早同中国达成协议缓解豆农危机

    美国大豆协会主席凯莱布·拉格兰19日致信美国总统特朗普表示,美国大豆种植户正面临“极大的”财务压力。随着收获季迅速到来,美国就大豆出口与中国越晚达成协议,美国豆农受到的冲击就越严重。拉格兰在信中写道: ...

  • 《少年书院行》:用青春脚步丈量文明厚度
    《少年书院行》:用青春脚步丈量文明厚度

    来源标题:《少年书院行》:用青春脚步丈量文明厚度在文化类节目不断探索年轻化、可视化、沉浸式表达的新语境中,由湖南卫视与芒果TV联合推出的《少年书院行》以鲜活的少年视角与行走式的叙事模式,开辟出一条传统 ...

  • 人民日报:不少声音呼吁“同志”称呼重归主流
    人民日报:不少声音呼吁“同志”称呼重归主流

    来源:北京青年报7月7日,《人民日报》刊发了题为《称呼与风气金台随感)》的文章。全文如下:称呼,一个老生常谈的问题。曾几何时,招呼人无须刻意措辞,一声“同志”便可,听者坦然、舒泰。后来,经济增长、文化 ...

  • 女子自曝怀孕期间摆烂上班丈夫是市副处?官方通报
    女子自曝怀孕期间摆烂上班丈夫是市副处?官方通报

    红河县联合调查组7月9日通报,近日,网传“红河县文旅局一员工自曝孕早期请假数月”,红河县纪委监委、县委组织部、县人社局等部门组成联合调查组开展调查。经调查,发帖人为红河县文旅局事业人员杨路某某,于20 ...

  • 港交所陈翊庭:港交所将研究24小时交易机制
    港交所陈翊庭:港交所将研究24小时交易机制

    在港交所2025年中期业绩会议上,港交所集团行政总裁陈翊庭表示:“港交所在保持全球竞争力方面始终坚持战略性投入原则。港交所在资本开支方面不会吝啬,我们持续加大在信息平台优化、交易结算系统升级等方面的投 ...

  • 2025中国国际大学生时装周✕神州租车潮游旅行大赛获奖作品揭晓
    2025中国国际大学生时装周✕神州租车潮游旅行大赛获奖作品揭晓

    来源标题: 2025中国国际大学生时装周✕神州租车潮游旅行大赛获奖作品揭晓路在脚下,美学在途中。在2025中国国际大学生时装周的光影褶皱里,2025中国国际大学生时装周✕神州租车【潮游旅行大赛获奖作品 ...

  • 台湾一男子杀死妻子小姨子后直播逃亡动态
    台湾一男子杀死妻子小姨子后直播逃亡动态

    来源:三湘都市报[男子杀死妻子小姨子后直播逃亡动态 男子通知小姨子老公说我杀了你老婆 失业男不满家暴报警杀死妻子小姨子]台湾省新北市土城区一对姐妹,7日疑因家庭纠纷,遭姐姐的丈夫驾车追撞并当街刺死,两 ...

  • 商务部回应冯德莱恩涉华言论
    商务部回应冯德莱恩涉华言论

    7月10日,商务部召开例行新闻发布会。有记者提问,欧盟委员会主席冯德莱恩近日发表演讲,指责中国市场准入、补贴、政府采购、出口管制、产能过剩等问题。请问商务部对此有何评论?商务部新闻发言人何咏前表示,商 ...

专事反诈指南之校园篇——必看!这些骗局专坑学生群体
风站报全国首部展现“正当防卫”的悬疑剧来了!迷雾剧场作品《正当防卫》7月9日开播
风趣话《沙丘:觉醒》揭晓游戏中后期体验内容
短闻人民日报:不少声音呼吁“同志”称呼重归主流
风台潮北电数智 WAIC 首秀,展示星火·大平台落百业成果
风集新商务部:已部署开展打击战略矿产走私出口专项行动

短秀

更多 >