首页 >> 今日吃瓜> 正文

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

来源:今日吃瓜发布时间：2025-09-09 00:14:23

清华和上交的套公式最新论文中，上演了一场“学术打假”的推理戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的神器上交主流观点提出了相反的意见。

通过一系列实验，清华他们证明引入强化学习的大最大模模型在某些任务中的表现，竟然不如未使用强化学习的新研型更影视资源内幕模型。

论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的真推作用，尤其是套公式在赋予模型超越自身原有能力方面，效果可能并非像人们普遍认为的推理那样“无懈可击”。

RL 是神器上交推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

消息一出，网友们纷纷下场站队。大最大模

有人认为这篇文章抓住了 RL 自身的新研型更漏洞，虽然提高了采样效率，真推但它似乎在推理方面存在不足，套公式未来我们需要新的方法来释放 LLM 的全部潜力。

RL 是<strong>酒店视频记录全本</strong>推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

也有人表示，或许强化学习实际上限制了模型开发新推理行为的能力。真正的推理增强可能需要蒸馏等方法。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

质疑声之外，RL 的追随者也在为“信仰”发声：这种说法是错的，验证远比生成简单的多。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

也有网友表示，这更像是奖励结构的缺陷，而非 RLVR 本身的问题。如果用二元奖励结构，出现这种情况可以理解。但我们可以调整奖励结构来缓解这个问题，甚至还能激励更好的推理。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

强化学习：擅长加速，不擅长开路

实验中，研究人员在三个具有代表性的领域进行了实验，来评估 RLVR 对基础模型和 RLVR 模型的推理能力边界的作用。

在数学任务实验中，研究团队在 GSM8K、MATH500 和 AIME24 等基准上评估了多个大语言模型系列（如 Qwen-2.5 和 LLaMA-3.1）及其经过 RL 训练的变体。他们通过分析 pass@k 曲线，比较了基础模型与 RL 模型的表现，发现虽然 RL 在低 k 值下提升了模型的准确性，但在高 k 情况下却显著降低了问题的覆盖范围。

此外，研究者还手动审查了模型生成的 CoT（Chain of Thought）推理过程，以确认正确答案是推理得出而非纯属运气。最后，他们还研究了采用 Oat-Zero 方法训练的模型，并对信息集进行了过滤，剔除容易猜测的问题，从而聚焦于更具挑战性的样本。

整体结果显示，尽管 RL 能在初始准确率上带来提升，基础模型在推理覆盖率方面仍表现更为稳健。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

在编码任务实验中，研究团队在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基准上评估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 训练模型 CodeR1-Zero-Qwen2.5-7B。他们通过 pass@k 指标来衡量性能，并根据预定义的测试用例评估模型的正确性。

结果显示，RLVR 提升了单样本 pass@1 的分数，但在较高采样数（k = 128）时，模型的覆盖率有所下降。与此相比，原始模型在较大 k 值下表现出了持续改进的潜力，而 RLVR 的性能则趋于平稳。这表明，尽管 RLVR 提高了模型的确定性准确性，但在探索多样性方面存在一定的限制。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

在视觉推理实验中，研究团队在过滤后的视觉推理基准（MathVista 和 MathVision）上评估了 Qwen-2.5-VL-7B，删除了多项选择题，聚焦于稳健的问题解决能力。RLVR 在视觉推理任务中的表现提升与数学和编码基准中的改进相一致，表明原始模型已能够解决广泛的问题，即便是在多模态任务中也同样如此。

跨领域的一致性表明，RLVR 提升了模型的推理能力，同时并未从根本上改变模型的问题解决策略。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

推理能力的边界

使用单次通过的成功率或平均核采样衡量模型推理能力边界的传统指标存在关键缺陷。如果模型在少数几次尝试后未能解决难题，但却本可以通过更多次的采样获得成功，此时其真实推理潜力可能会被低估。

如果为基础模型投入大量采样资源，它的性能能否与经过强化学习训练的模型相匹配？

为精准评估大语言模型的推理能力边界，研究团队将代码生成领域常用的pass@k指标拓展至所有可验证奖励的任务。针对一个问题，从模型中采样k个输出，若至少一个样本通过验证，该问题的pass@k 值为1，否则为0。信息集上的平均 pass@k 值反映了模型在 k 次试验内可解决的信息集问题比例，能严格评估 LLM 的推理能力覆盖范围。

直接按问题采样k个输出计算pass@k可能导致高方差。他们采用无偏估计法，对评估信息集D中的每个问题生成 n 个样本（n ≥ k），统计正确样本数。对于使用编译器和预定义单元测试用例作为验证器的编码任务，pass@k 值能准确反映模型是否能解决问题。

然而，随着 k 增大，数学问题中“黑客”行为可能凸显，即模型可能生成错误的推理过程，却在多次采样中偶然得出正确答案，这一情况常被以往指标忽视。为此，他们筛选出易被“黑客”攻克的问题，并手动检查部分模型输出的 CoT 正确性。结合这些措施，他们严格评估了 LLM 的推理能力极限。

当强化学习不再“强化”

清华与上交的这篇论文，为当前业界广泛推崇的强化学习范式敲响了警钟。让我们不得不重新思考强化学习在大模型训练流程中的真正角色。

我们也不能将模型的“能力”与“效率”混为一谈。能力，指的是模型是否拥有解决某类问题的潜质与逻辑链条；效率，则是在给定的能力范围内，模型能以多快、多稳、多省资源的方式得出答案。

强化学习或许确实能够提升模型在已有能力基础上的输出表现（比如在低采样次数下更快给出正确答案），但这并不代表它为模型带来了新的推理路径或更复杂问题的解决能力。相反，在高采样场景中，RL 带来的“收敛性”可能牺牲了答案的多样性，从而错失了解决更多难题的机会。

雷峰网(公众号：雷峰网)认为，强化学习更像是一种能力调控器，而非能力创造器。它可以让模型更擅长做已经能做的事，但难以让模型做出“原本不会的事”。正因如此，若将 RL 简单视为提升模型通用智能的万能钥匙，未免过于乐观。接下来的工艺路线，可能需要更多关注基础模型在表示能力、知识组织与推理路径构建等方面的设计，而非过度依赖下游的策略微调。

总的来说，这项研究的意义不在于“RL 无用”的结论，而在于它揭示了在过热预期背后，强化学习真正适用的边界。这或许会促使研究者和企业在制定大模型优化方案时，回归问题本质，用更清晰的标准衡量“能力的提升”究竟意味着什么。

参考链接：

https://arxiv.org/pdf/2504.13837

https://x.com/iScienceLuvr/status/1914171319970848942

https://limit-of-rlvr.github.io/

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

返回资讯首页 >>

风事集

更多 >

伊朗军队举行导弹演习
更新：2025-09-08 23:57
绝不容忍！中国驻日本大使馆向日方提出严正交涉
更新：2025-09-08 23:07
开封警方回应网传“释永信相关警情通报”：假的
更新：2025-09-08 22:10
吴清挂帅，中国资本市场“超级智囊团”来了
更新：2025-09-08 21:33

风台榜

更多 >

伊朗军队举行导弹演习
当地时间8月21日上午，伊朗军方宣布，为期两天的导弹演习正式开始。据悉，此次演习将使用伊朗军队最新研发的防御武器。CCTV国际时讯） ...
普京：俄海军战略核力量持续提升
当地时间7月27日，俄罗斯总统普京在海军节发表讲话称，俄罗斯“核三位一体”中的海基力量正不断增强，以战略核潜艇部队为核心的海基战略力量持续提升战斗力。“波扎尔斯基大公”号战略核潜艇已建造完成，另有两艘 ...
泰国军方向26国发函：柬埔寨率先开火并袭击平民
当地时间7月26日，泰国陆军情报局通过驻外武官渠道，向26个国家发出正式函件，称柬埔寨军队是率先发动攻击一方，柬方的攻击针对泰国平民、社区和医院，严重侵犯泰国主权。此次发函的对象包括美国、中国、俄罗斯 ...
金正恩参谒中朝友谊塔并献花圈
当地时间7月26日，在《朝鲜停战协定》签署72周年纪念日到来之际，朝鲜劳动党总书记、国务委员长金正恩参谒中朝友谊塔并献花圈，表达对中国人民志愿军烈士的哀思。总台记者董海涛） ...
商务部：将于9月出台扩大服务消费的若干政策措施
来源：财联社财联社8月27日讯，国务院新闻办公室今日上午10时举行新闻发布会，请商务部副部长盛秋平、北京市副市长司马红介绍中国服务贸易发展和2025年服贸会筹备工作进展情况，并答记者问。系列促进服务出 ...
河北阜平遇强降雨全县共转移1289户4655人
7月26日，记者从河北保定阜平县防汛抗旱指挥部办公室获悉，7月25日17时~7月26日01时，阜平出现历史罕见强降雨过程，全县平均雨量234毫米，最大降雨量540毫米，出现在西庄站，最大小时雨强为14 ...
一婚被骗，二婚4年离婚，女儿公开出柜，恬妞的经历太坎坷
你还记得《少年英雄方世玉》中，那个有点疯癫，又英气十足的方世玉母亲苗翠花吗？那一年，41岁的恬妞凭借这部剧红遍大江南北。但很多观众并不知道，这个笑得比谁都泼辣、古怪又搞笑的女人，早已经历人情冷暖，走过 ...
绝不容忍！中国驻日本大使馆向日方提出严正交涉
7月25日，针对日本政府纵容台湾地区外事部门负责人林佳龙入境窜访，中国驻日本大使馆公使施泳紧急向日本外务省亚大局长金井正彰提出严正交涉和强烈抗议。我方强调，台湾问题是中国核心利益中的核心，一个中国原则 ...
中国最懂女人的男人：牵手林志玲，年入30亿
文 | 万棱镜，作者｜沐风，编辑｜小峰他，被称为“中国最懂女人的男人” 。这个男人不是导演，也不是明星，却总是出现在女星的身边。10年前，他牵起林志玲的手，把她带进了中国县城的内衣店里；如今，徐冬冬、 ...
印度一神庙附近发现数百具尸体多为妇女儿童
据多家印度媒体报道，日前，印度卡纳塔克邦曝出藏尸大案，遇害者达数百人。遇害者多数为妇女和儿童，许多遗体有遭遇性侵、烧伤等痕迹。遗体被掩埋在一处有八百多年历史的神庙附近区域。据报道，7月初，一名男子向当 ...
老挝军方称泰柬交火致10枚炮弹落入该国境内
总台记者当地时间7月26日获悉，老挝占巴塞省军事特种作战部队发布文件称，在7月24日至25日泰国和柬埔寨军队发生交火期间，有10枚炮弹落入老挝领土。目前尚不清楚是哪一方所发射。截至目前，泰国和柬埔寨方 ...
谢娜张杰秀恩爱炒作？李小冉嘲讽刘晓庆？阮经天陈乔恩炒CP？柯淳卖惨虐粉？双女星因戏生情？
1：谢娜张杰秀恩爱炒作？最近谢娜参加了芒果的新综艺《姐姐当家》，这档节目同时还剪了个衍生节目《姐姐请吃饭》，新一期衍生节目中谢娜因行程冲突没能准时赶上张杰北京演唱会，然后坐在车内崩溃大哭的情节引发热议 ...