{label:top}
首页 >> 风台新> 正文

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

来源:风台新发布时间:2025-09-09 15:04:03
浏览:6

清华和上交的套公式最新论文中,上演了一场“学术打假”的推理戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的神器上交主流观点提出了相反的意见。

通过一系列实验,清华他们证明引入强化学习的大最大模模型在某些任务中的表现,竟然不如未使用强化学习的新研型更天津师范大学实拍全集模型。

论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的真推作用,尤其是套公式在赋予模型超越自身原有能力方面,效果可能并非像人们普遍认为的推理那样“无懈可击”。

RL 是神器上交推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

消息一出,网友们纷纷下场站队。大最大模

有人认为这篇文章抓住了 RL 自身的新研型更漏洞,虽然提高了采样效率,真推但它似乎在推理方面存在不足,套公式未来我们需要新的方法来释放 LLM 的全部潜力。

RL 是<strong>成都高中绯闻评价</strong>推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

也有人表示,或许强化学习实际上限制了模型开发新推理行为的能力。真正的推理增强可能需要蒸馏等方法。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

质疑声之外,RL 的追随者也在为“信仰”发声:这种说法是错的,验证远比生成简单的多。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

也有网友表示,这更像是奖励结构的缺陷,而非 RLVR 本身的问题。如果用二元奖励结构,出现这种情况可以理解。但我们可以调整奖励结构来缓解这个问题,甚至还能激励更好的推理。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

强化学习:擅长加速,不擅长开路

实验中,研究人员在三个具有代表性的领域进行了实验,来评估 RLVR 对基础模型和 RLVR 模型的推理能力边界的作用。

在数学任务实验中,研究团队在 GSM8K、MATH500 和 AIME24 等基准上评估了多个大语言模型系列(如 Qwen-2.5 和 LLaMA-3.1)及其经过 RL 训练的变体。他们通过分析 pass@k 曲线,比较了基础模型与 RL 模型的表现,发现虽然 RL 在低 k 值下提升了模型的准确性,但在高 k 情况下却显著降低了问题的覆盖范围。

此外,研究者还手动审查了模型生成的 CoT(Chain of Thought)推理过程,以确认正确答案是推理得出而非纯属运气。最后,他们还研究了采用 Oat-Zero 方法训练的模型,并对信息集进行了过滤,剔除容易猜测的问题,从而聚焦于更具挑战性的样本。

整体结果显示,尽管 RL 能在初始准确率上带来提升,基础模型在推理覆盖率方面仍表现更为稳健。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

在编码任务实验中,研究团队在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基准上评估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 训练模型 CodeR1-Zero-Qwen2.5-7B。他们通过 pass@k 指标来衡量性能,并根据预定义的测试用例评估模型的正确性。

结果显示,RLVR 提升了单样本 pass@1 的分数,但在较高采样数(k = 128)时,模型的覆盖率有所下降。与此相比,原始模型在较大 k 值下表现出了持续改进的潜力,而 RLVR 的性能则趋于平稳。这表明,尽管 RLVR 提高了模型的确定性准确性,但在探索多样性方面存在一定的限制。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

在视觉推理实验中,研究团队在过滤后的视觉推理基准(MathVista 和 MathVision)上评估了 Qwen-2.5-VL-7B,删除了多项选择题,聚焦于稳健的问题解决能力。RLVR 在视觉推理任务中的表现提升与数学和编码基准中的改进相一致,表明原始模型已能够解决广泛的问题,即便是在多模态任务中也同样如此。

跨领域的一致性表明,RLVR 提升了模型的推理能力,同时并未从根本上改变模型的问题解决策略。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

推理能力的边界

使用单次通过的成功率或平均核采样衡量模型推理能力边界的传统指标存在关键缺陷。如果模型在少数几次尝试后未能解决难题,但却本可以通过更多次的采样获得成功,此时其真实推理潜力可能会被低估。

如果为基础模型投入大量采样资源,它的性能能否与经过强化学习训练的模型相匹配?

为精准评估大语言模型的推理能力边界,研究团队将代码生成领域常用的pass@k指标拓展至所有可验证奖励的任务。针对一个问题,从模型中采样k个输出,若至少一个样本通过验证,该问题的pass@k 值为1,否则为0。信息集上的平均 pass@k 值反映了模型在 k 次试验内可解决的信息集问题比例,能严格评估 LLM 的推理能力覆盖范围。

直接按问题采样k个输出计算pass@k可能导致高方差。他们采用无偏估计法,对评估信息集D中的每个问题生成 n 个样本(n ≥ k),统计正确样本数。对于使用编译器和预定义单元测试用例作为验证器的编码任务,pass@k 值能准确反映模型是否能解决问题。

然而,随着 k 增大,数学问题中“黑客”行为可能凸显,即模型可能生成错误的推理过程,却在多次采样中偶然得出正确答案,这一情况常被以往指标忽视。为此,他们筛选出易被“黑客”攻克的问题,并手动检查部分模型输出的 CoT 正确性。结合这些措施,他们严格评估了 LLM 的推理能力极限。

当强化学习不再“强化”

清华与上交的这篇论文,为当前业界广泛推崇的强化学习范式敲响了警钟。让我们不得不重新思考强化学习在大模型训练流程中的真正角色。

我们也不能将模型的“能力”与“效率”混为一谈。能力,指的是模型是否拥有解决某类问题的潜质与逻辑链条;效率,则是在给定的能力范围内,模型能以多快、多稳、多省资源的方式得出答案。

强化学习或许确实能够提升模型在已有能力基础上的输出表现(比如在低采样次数下更快给出正确答案),但这并不代表它为模型带来了新的推理路径或更复杂问题的解决能力。相反,在高采样场景中,RL 带来的“收敛性”可能牺牲了答案的多样性,从而错失了解决更多难题的机会。

雷峰网(公众号:雷峰网)认为,强化学习更像是一种能力调控器,而非能力创造器。它可以让模型更擅长做已经能做的事,但难以让模型做出“原本不会的事”。正因如此,若将 RL 简单视为提升模型通用智能的万能钥匙,未免过于乐观。接下来的工艺路线,可能需要更多关注基础模型在表示能力、知识组织与推理路径构建等方面的设计,而非过度依赖下游的策略微调。

总的来说,这项研究的意义不在于“RL 无用”的结论,而在于它揭示了在过热预期背后,强化学习真正适用的边界。这或许会促使研究者和企业在制定大模型优化方案时,回归问题本质,用更清晰的标准衡量“能力的提升”究竟意味着什么。

参考链接:

https://arxiv.org/pdf/2504.13837

https://x.com/iScienceLuvr/status/1914171319970848942

https://limit-of-rlvr.github.io/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

深料

更多 >
  • 马斯克因“百万美元抽奖”再面临诉讼
    更新:2025-09-09 14:38
  • 《桃花坞5》今日收官,友情沙漏见证坞民群像聚合
    更新:2025-09-09 14:21
  • 台北地方法院裁定柯文哲羁押禁见延长2个月
    更新:2025-09-09 13:26
  • 《浴血荣光》首播即登顶创近三年重大革命历史剧开播新高——陈力导演电影美学再进阶
    更新:2025-09-09 12:43

热门文章

  • 经纪人透露:千百惠将安葬在北京
    经纪人透露:千百惠将安葬在北京

    经纪人透露:千百惠将安葬在北京

    [经纪人透露:千百惠将安葬在北京]8月19日,中国台湾歌手千百惠因突发病症救治无效离世,享年62岁。21日,封面新闻记者从千百惠经纪人吕芳处获悉,告别式后,千百惠将安葬在北京。至于是否会举行纪念活动, ...

  • 中国交响乐团新乐季发布 十余部中国作品将与观众见面 3套作品为世界首演
    中国交响乐团新乐季发布 十余部中国作品将与观众见面 3套作品为世界首演

    中国交响乐团新乐季发布 十余部中国作品将与观众见面 3套作品为世界首演

    来源标题:中国交响乐团新乐季发布 十余部中国作品将与观众见面 3套作品为世界首演中国交响乐团党委书记周宇左)为著名小提琴家陆威颁发客座首席聘书。摄影/罗维7月19日,中国交响乐团2025/26音乐季在 ...

  • 俄称击落百架乌无人机 乌方通报遭俄大规模空袭
    俄称击落百架乌无人机 乌方通报遭俄大规模空袭

    俄称击落百架乌无人机 乌方通报遭俄大规模空袭

    俄罗斯国防部21日通报称,过去一天,俄防空部队在多地击落100多架无人机。莫斯科和圣彼得堡多个机场一度实施航空管制措施。乌克兰空军21日通报称,自20日晚起,俄军使用400多架无人机和24枚各类型导弹 ...

  • “奥巴马被捕”影片疯传!特朗普也转了
    “奥巴马被捕”影片疯传!特朗普也转了

    “奥巴马被捕”影片疯传!特朗普也转了

    据美国福克斯新闻网7月20日报道,美国总统特朗普当天分享了一段机器智能生成的影片,影片中,美国前总统奥巴马被逮捕。福克斯新闻称,这代表特朗普对国家情报总监图尔西·加巴德最近有关奥巴马政府2016年伪造 ...

  • 绿动算力 超智融合
    绿动算力 超智融合

    绿动算力 超智融合

    “天苍苍,野茫茫,风吹草低见牛羊”,雄浑壮阔的草原风景与“绿水青山就是金山银山”的发展智慧在鄂尔多斯交相辉映。8月13-16日在鄂尔多斯国际会展中心举办的第21届CCF全国高性能计算学术大会CCF H ...

  • 惠誉下调美国25%行业前景评级至“恶化”
    惠誉下调美国25%行业前景评级至“恶化”

    惠誉下调美国25%行业前景评级至“恶化”

    当地时间7月21日,国际评级机构惠誉称,政策风险给美国信用前景蒙上阴影。惠誉在年中更新中,将美国2025年25%行业的前景展望下调至“恶化”,原因是不确定性增加、经济增长放缓以及预期利率将长期维持在高 ...

  • 北京长城音乐会上演激情乐章 八旬殷承宗长城脚下奏响《黄河》
    北京长城音乐会上演激情乐章 八旬殷承宗长城脚下奏响《黄河》

    北京长城音乐会上演激情乐章 八旬殷承宗长城脚下奏响《黄河》

    来源标题:北京长城音乐会上演激情乐章 八旬殷承宗长城脚下奏响《黄河》八达岭长城脚下,2025北京长城音乐会精彩上演。 主办方供图在长城的见证下,《保卫黄河》的激昂旋律在巍峨群山间回荡,“风 ...

  • 济南莱芜山洪灾害致2死10失联,灾后救援正在进行
    济南莱芜山洪灾害致2死10失联,灾后救援正在进行

    济南莱芜山洪灾害致2死10失联,灾后救援正在进行

    7月22日,据济南莱芜应急局消息,当地遭遇强降雨天气,最大降雨量364毫米,大王庄镇石屋子村、朱家峪村附近发生山洪灾害,冲毁及损坏房屋19套,造成2人死亡、10人失联。大王庄镇一名居民告诉@新京报 记 ...

风风看

更多 >
  • 九三阅兵,具体安排来了!
    九三阅兵,具体安排来了!

    国务院新闻办公室8月20日举行新闻发布会,介绍阅兵准备工作有关情况。这张长图,带你了解九三阅兵具体安排。点击进入专题:国新办发布会介绍阅兵准备工作 ...

  • 13次夺影后,一生无儿无女,68岁却公开表白,前夫:她太敢了
    13次夺影后,一生无儿无女,68岁却公开表白,前夫:她太敢了

    如果让你做一次导演,去选一个演“恶婆婆”的女演员,你会选谁?相信很多人会选潘虹,历来娱乐圈就有“皇帝专业户”、“太监专业户”、“鬼子专业户”等等。而“恶婆婆专业户”,非潘虹莫属。然而讽刺的是,如今71 ...

  • 今日辟谣(2025年7月22日)
    今日辟谣(2025年7月22日)

    来源: 中国互联网联合辟谣平台2025年7月22日辟 谣这则“警情通报”是假的!详情:近日,一则内容为“昆明市金马坊路段发生一起犯罪嫌疑人驾车冲撞行人的重大恶性案件,致131人经抢救无效死亡,337人 ...

  • 俄称击落百架乌无人机 乌方通报遭俄大规模空袭
    俄称击落百架乌无人机 乌方通报遭俄大规模空袭

    俄罗斯国防部21日通报称,过去一天,俄防空部队在多地击落100多架无人机。莫斯科和圣彼得堡多个机场一度实施航空管制措施。乌克兰空军21日通报称,自20日晚起,俄军使用400多架无人机和24枚各类型导弹 ...

  • 资本明牌撑腰?黄杨钿甜争议中复出试探舆论风向
    资本明牌撑腰?黄杨钿甜争议中复出试探舆论风向

    作者 | 十三妹沉寂了近两个月的,突然杀回了公众视野。有网友发现,黄杨钿甜现身横店,为其新剧《冰湖重生》补拍戏份。从现场视频可以发现,黄小姐全程口罩遮面、低头疾行,身边工作人员簇拥护航。大量粉丝围堵片 ...

  • 外交部回应美财长有关中美经贸磋商言论
    外交部回应美财长有关中美经贸磋商言论

    据央视新闻消息,7月22日,外交部发言人郭嘉昆主持例行记者会。有记者就美国财长近期关于中美经贸磋商相关言论提问。郭嘉昆表示,在关税问题上,中方立场是一贯和明确的。希望美方同中方一道,落实两国元首通话达 ...

  • 直播卖不到25万元,汪峰带不动299元的音乐课
    直播卖不到25万元,汪峰带不动299元的音乐课

    文 | 电商在线花299元,就可能成为摇滚巨星演唱会的嘉宾,加入明星团队,成为娱乐圈人士。这个听起来不切实际的故事,来自明星汪峰的直播间。“有很多东西,真的不是你平时能够听到、知道的。”抖音直播间中, ...

  • 今日辟谣(2025年7月22日)
    今日辟谣(2025年7月22日)

    来源: 中国互联网联合辟谣平台2025年7月22日辟 谣这则“警情通报”是假的!详情:近日,一则内容为“昆明市金马坊路段发生一起犯罪嫌疑人驾车冲撞行人的重大恶性案件,致131人经抢救无效死亡,337人 ...

  • 中方是否承认塔利班的阿富汗临时政府?外交部回应
    中方是否承认塔利班的阿富汗临时政府?外交部回应

    【环球时报-环球网报道 记者 李萌】在8月21日外交部例行记者会上,有记者提问称,上个月,俄罗斯正式承认阿富汗的临时政府,请问目前中方是否承认塔利班的阿富汗临时政府?对此,发言人毛宁表示,中国奉行面向 ...

  • 吴建豪,被人羞辱后狠狠扇了一耳光!
    吴建豪,被人羞辱后狠狠扇了一耳光!

    吴建豪,终于杀回来了!西装革履的吴建豪,却羞辱后狠狠扇了一耳光。他表面上装作若无其事,转身冷静下来后却直接让羞辱者“下线”。这是吴建豪在《鹦鹉》中饰演的反差感十足的角色——黄志兴。在这部剧中,他表面是 ...

  • 北京体彩“京彩潮玩”露营嘉年华成功举办 深化“体育+公益+公园”融合
    北京体彩“京彩潮玩”露营嘉年华成功举办 深化“体育+公益+公园”融合

    来源标题:北京体彩“京彩潮玩”露营嘉年华成功举办 深化“体育+公益+公园”融合7月19日,北京体育彩票管理中心主办的“京彩潮玩”系列活动第二站——&ld ...

  • 孟加拉国空军一架飞机坠毁 至少19人死亡
    孟加拉国空军一架飞机坠毁 至少19人死亡

    总台记者获悉,孟加拉国空军一架飞机当地时间21日在该国一所学校坠毁,已造成至少19人死亡。总台记者 魏可枫)相关新闻孟加拉国一空军飞机坠毁 伤亡暂不明央视)总台记者获悉,当地时间21日13时30分左右 ...

娱乐50%关税,正式生效!印度部分工厂“停工”
风趣追遇男子强奸嫂子见义勇为被害家属发声
热速夸大技术、误导消费者?加州或吊销特斯拉销售执照
新瓜特朗普:如有必要 美国还会再次摧毁伊朗核设施
风事台WAIC最强亮点:非Transformer离线AI大模型已大规模量产,大模型商业比我们想得更快
风点讯法国娇兰品牌挚友张云龙亲临深圳茂业天地 携御廷兰花金致焕采系列,探索前沿科技,盛绽年轻光芒

风集报

更多 >