首页 >> 新讯> 正文

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

来源:新讯发布时间：2025-09-09 15:00:23

天下武功唯快不破，竟的接棒键但 OpenAI 不走寻常路，革命新出的由o研究 o1 系列宣告天下：

我们更慢，但更强了。最关

o1 要花更多的发现时间思考问题，再做出反应，竟的接棒键郑州学院爆料全集但在复杂推理层面直接窜了几个档位。革命

在国际数学奥林匹克 (IMO) 资格考试中，由o研究GPT-4o 仅正确解决了 13% 的最关问题，而 o1 得分为 83%。发现

好家伙，竟的接棒键这数学水平，革命上一次见面还是由o研究小学生，现在直接博士毕业了？最关

OpenAI 也很得意，表示 o1 已经达到AI能力新高度了，发现所以直接把计数重置到1，开启新的大模型系列 OpenAI o1。

本次 OpenAI o1系列分为三个型号，上海理工大学爆料推荐最强但还未发布的 o1，o1 的预览版 o1-preview，和性价比最高的轻量版 o1-mini。

之前的 GPT 系列还被诟病更新“挤牙膏”，没想到 OpenAI 一直都是老样子，不鸣则已一鸣惊人，直接给 AI 界来了个大大大地震。

综合网络对于 o1 的报道和评论，我们注意到几个关键信息：

这可能是Scaling Law提出以来，LLM领域最关键的发现。这一进展的核心是推理时间和参数规模两条曲线的协同作用，而不是单一曲线；

与强化学习的完美结合，可能为我们指明了通往人工通用智能（AGI）的有效路径（此前AI科技评论8月28日曾举办《大模型时代的强化学习》网络研讨会，讨论了强化学习与大模型的结合，感兴趣的朋友点击下方链接进行回看）；

o1 并非 GPT-4o 的升级版本，目前仍然无法解决像黎曼假设这样极其复杂或开放的问题，也没能解决幻觉问题。

OpenAI 对大模型的这次重新构想，无疑将对大模型的未来走向和整个AI领域的格局产生深远作用。

OpenAI的又一里程碑

奥特曼表示，o1 是他们迄今为止功能最强大、最一致的模型系列，只是使用的时候要花更多时间（凡尔赛了）。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

如图所示，o1 在绝大多数重推理任务中显著优于 GPT-4o

正在休长假、沉寂了一个月的 OpenAI 的另一位联创 Greg Brockman 洋洋洒洒写了一长段推文，表扬了 o1 的超强性能，并特别指出 o1 是第一个使用强化学习训练的模型，会在回答问题之前进行深入的思考。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

lmsys 也马上在 Chatbot Arena 更新了 o1-preview 和 o1-mini，欢迎大家测试。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

参与研发o1的 Shengjia Zhao 很谦虚地表示，o1 并不是完美的，也不会适合所有事情。不过人们能感受到它潜力无限，并再一次感受到 AGI。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

Jim Fan 认为，o1 透露出的研究进展可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最关键的发现。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

他还提到了两篇近期发表的关于 Scaling Law 的论文，并指出 OpenAI 早已意识到这一点，并通过 o1 证实了这些发现。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

大模型+强化学习=AGI？

大模型与强化学习的结合是近几年来的热门研究方向之一。

大模型的泛化能力和背景知识与强化学习的交互学习和任务优化相结合，可以创建出能够更好地适应复杂环境、解决多任务问题、并提供更高效和可解释决策的智能系统。这种互补性使得两者的结合成为推动机器智能增长的关键方向。

o1 大模型的发布，首次证明了语言模型可以进行真正的强化学习。而 OpenAI 的一位研究员说，o1 证明了强化学习才是通往 AGI 道路上的必备要素（RL研究者狂喜）。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

OpenAI 另一位专注推理的研究员也说，通过强化学习，o1 能够在做出反应进行“思考”，让他们不用再受预训练的瓶颈限制，终于可以做扩展推理计算了。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

强化学习和LLM可以说是非常适配了，只不过在 o1 之前还没有人能用 LLM 真正实现强化学习。

之前就有人说，模仿是 LLM 训练的基础，而模仿其实就是强化学习的问题。

DeepMind 的新论文也有提到，与监督学习相比，强化学习可以更好地利用序列结构、在线信息并进一步提取奖励。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

领导 DeepMind 强化学习研究小组的David Silver，也在前段时间的演讲中强调，“需要重新关注强化学习，才能走出 LLM 低谷。”

局限

不过，一众好评声中，也有人指出了 o1 存在的一些问题。

Andrej Karpathy 在测试后发推特说，o1-mini 还是有大模型的老毛病，问它黎曼假设这类复杂问题就偷懒逃避。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

Gary Marcus 认为 o1 并不是通用机器智能（AGI），甚至离 AGI 还很远。

他尖锐地点出了 o1 的八条问题，从多个方面批评了o1模型的细节披露不足、改进不够全面，认为实际测试与宣传间存在差距，并提醒消费者要慎重。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

Hugging Face 的 CEO 也表示，AI 并不是在思考，只是在在“处理”、“运行预测”……和谷歌或者计算机做的事情是一样的。这种工艺系统是人类的错误印象，只是廉价的骗术和营销手段，让人误以为它比实际更聪明。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

OpenAI 自己也承认了 o1 的不足。在一些自然语言任务测试中，尤其是写作能力方面，GPT-4o 还是更胜一筹。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

并且，o1 的推理依然存在缺陷，在实现质的提升的同时也没能解决LLM的幻觉问题。

著名程序员、Django Web 框架的联合创建者 Simon Willison 在推特上收集在 GPT-4o 上推理失败，但在 o1 成功的例子，只找到了几个让他满意的案例。他认为从推理来看，o1 并不是 GPT-4o 的升级版。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

他在博客中写道，o1 并不是简单的 GPT-4o 升级版，而是通过在成本和性能方面引入重大权衡，换取了更进一步的推理能力。

很明显，o1 和 GPT-4o 代表大模型的两个不同方向。OpenAI 也提到，以后会分别研发升级两个模型，这意味着，过去适用于 GPT-4o 的 Prompt 技巧未必同样适用于 o1。

实测

那么，o1 的表现到底怎么样呢？

在 Toqan 的排行榜中，我们可以看到 OpenAI O1 模型在 ProLLM StackUnseen 基准测试中表现出来的水平，比 SOTA 要高出 20%。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

elvis 做了详细测试，他提到 o1-preview 能够一次性解决很多难以回答的问题，包括很多当前大型语言模型（LLMs）难以处理的数学问题。

GPT未竟的革命，由o1接棒：或是LLM研究最关键的发现

他的完整测试影片已经上传YouTube，可以点击以下链接观看：

https://www.youtube.com/watch?v=xJJ2h3wQByg

OpenAI 首席研究官 Bob McGrew 在The Verge的采访中说，“从根本上说，o1 是一种新的模型模式，能够解决真正困难的问题，从而达到与人类相似的智能水平。”雷峰网雷峰网(公众号：雷峰网)

o1-preview和o1 mini已经带给我们这么多惊喜，不敢想最后发布的o1到底能有多强悍，让我们拭目以待。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

返回资讯首页 >>

风闻闻

更多 >

电影中的抗战——华中根据地新四军铁骨战强敌
更新：2025-09-09 14:52
拒绝「PPTSD」！通义上线PPT新功能，重塑工作学习流
更新：2025-09-09 14:41
放言库尔斯克固若金汤的州长，开枪自杀了
更新：2025-09-09 13:46
解读：物理诺贝尔奖为何颁给了HNN之父和深度学习之父？
更新：2025-09-09 12:20

全秀

更多 >

电影中的抗战——华中根据地新四军铁骨战强敌
全连82人全部壮烈殉国！1943年，为抵抗日伪军的扫荡，新四军的一个连队在苏北抗日根据地的刘老庄浴血奋战，全连82名勇士全部壮烈殉国。今天我们就结合《刘老庄八十二壮士》这部电影，回顾新四军战史上这场极 ...
“IP出海”助力中国文化走出去
来源标题：“IP出海”助力中国文化走出去在沙特阿拉伯利雅得，观众在《哪吒之魔童闹海》的宣传展板旁拍照留念。新华社发放眼近期全球市场，从《黑神话：悟空》到《哪吒之魔童闹海》，再到LABUBU拉布布），来 ...
梁文锋亲自挂名，DeepSeek 最新论文丢出注意力新机制，推理速度直线提升 11 倍
2 月 18 日，马斯克发布 Grok 3 的热度还没过去，梁文锋就作为 co-authors 带着 DeepSeek 研究团队杀了回来。公布新研究的推文发布不到 3 个小时，就带来了三十多万的浏览量 ...
商汤徐立：未来核心战略在于无缝集成基础设施、人工智能模型和应用
恰逢商汤科技十周年庆典，“2024商汤十周年国际论坛：迈向AI 2.0共融新时代”在香港科学园成功举办。来自全球的行业领袖、政府代表、AI专家共聚于此，共同探讨AI行业的未来。活动上，商汤科技董事长兼 ...
“高速有人戴恐怖面具惊吓过路车辆”？警方通报
27日凌晨，杭州高速交警发布警情通报，全文如下：警情通报针对网传“长深高速有人戴恐怖面具惊吓过路车辆”事件，经查，涉事人员系萧山区某校外籍老师Hugo男，42岁）。8月24日16时57分，其搭乘朋友车 ...
杭州市余杭区自来水气味异常最新情况通报
7月16日上午，杭州市余杭区仁和街道及良渚街道部分区域出现自来水气味异常。对此，余杭区人民政府今天发布情况通报：7月16日8时，仁和水厂发现水质嗅味指标异常，经采样分析确认后随即启动供水突发事件应急预 ...
2025青葱创投会：共铸影像生命力，发掘创作新愿景
来源标题：2025青葱创投会：共铸影像生命力，发掘创作新愿景 2025年7月9日，2025青葱创投会在郎园VINTAGE·虞社演艺空间顺利举行。经历过征集初选、创作训练营、电影大师班、复 ...
说唱歌手Rapeter为连云港队加油：释放热爱和激情，开心最重要
北京时间7月19日，说唱歌手Rapeter吴嘉轩接受了连云港电视台的采访。聊到苏超，Rapeter说：“连云港是我心中的根，是我永远不会忘掉的出发的地方，永远是我的主队。我看到我们连云港队现在已经排到 ...
马斯克因“百万美元抽奖”再面临诉讼
当地时间8月20日，美国一名联邦法官要求马斯克必须对一起涉及“百万美元抽奖”的集体诉讼应诉。亚利桑那州选民杰奎琳·麦卡弗蒂作为代表提起集体诉讼，指控马斯克及其创建的“美国政治行动委员会”在2024年大 ...
日本专家：本次参议院选举或将影响日本政局走向
日本国会第27届参议院选举定于20日投票。选举在即，多项民意调查结果显示，日本自由民主党和公明党组成的执政联盟选情严峻，其获得过半数议席的目标面临挑战。日本山口大学名誉教授纐缬厚表示，本次选举可能成为 ...
视觉模型智能涌现后， Scaling Law 不会到头
Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文，其研究表明当下的语言模型在大量数据上经历 ...
独家对话刘知远：AGI 是一场技术理想与商业现实的「持久战」
DeepSeek 以迅雷不及掩耳之势出圈后，中国大部分的大模型团队都被打得措手不及，只有一家公司因为底层技术和 AGI 思想路径与 DeepSeek 相近而暂时“逃过一劫”，这家公司就是：面壁智能。作 ...