{label:top}
首页 >> 新讯> 正文

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

来源:新讯发布时间:2025-09-09 15:00:23
浏览:945

天下武功唯快不破,竟的接棒键但 OpenAI 不走寻常路,革命新出的由o研究 o1 系列宣告天下:

我们更慢,但更强了。最关

o1 要花更多的发现时间思考问题,再做出反应,竟的接棒键郑州学院爆料全集但在复杂推理层面直接窜了几个档位。革命

在国际数学奥林匹克 (IMO) 资格考试中,由o研究GPT-4o 仅正确解决了 13% 的最关问题,而 o1 得分为 83%。发现

好家伙,竟的接棒键这数学水平,革命上一次见面还是由o研究小学生,现在直接博士毕业了?最关

OpenAI 也很得意,表示 o1 已经达到AI能力新高度了,发现所以直接把计数重置到1,开启新的大模型系列 OpenAI o1。

本次 OpenAI o1系列分为三个型号,上海理工大学爆料推荐最强但还未发布的 o1,o1 的预览版 o1-preview,和性价比最高的轻量版 o1-mini。

之前的 GPT 系列还被诟病更新“挤牙膏”,没想到 OpenAI 一直都是老样子,不鸣则已一鸣惊人,直接给 AI 界来了个大大大地震。

综合网络对于 o1 的报道和评论,我们注意到几个关键信息:

这可能是Scaling Law提出以来,LLM领域最关键的发现。这一进展的核心是推理时间和参数规模两条曲线的协同作用,而不是单一曲线;

与强化学习的完美结合,可能为我们指明了通往人工通用智能(AGI)的有效路径(此前AI科技评论8月28日曾举办《大模型时代的强化学习》网络研讨会,讨论了强化学习与大模型的结合,感兴趣的朋友点击下方链接进行回看);

o1 并非 GPT-4o 的升级版本,目前仍然无法解决像黎曼假设这样极其复杂或开放的问题,也没能解决幻觉问题。

OpenAI 对大模型的这次重新构想,无疑将对大模型的未来走向和整个AI领域的格局产生深远作用。


OpenAI的又一里程碑

奥特曼表示,o1 是他们迄今为止功能最强大、最一致的模型系列,只是使用的时候要花更多时间(凡尔赛了)。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

如图所示,o1 在绝大多数重推理任务中显著优于 GPT-4o

正在休长假、沉寂了一个月的 OpenAI 的另一位联创 Greg Brockman 洋洋洒洒写了一长段推文,表扬了 o1 的超强性能,并特别指出 o1 是第一个使用强化学习训练的模型,会在回答问题之前进行深入的思考。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

lmsys 也马上在 Chatbot Arena 更新了 o1-preview 和 o1-mini,欢迎大家测试。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

参与研发o1的 Shengjia Zhao 很谦虚地表示,o1 并不是完美的,也不会适合所有事情。不过人们能感受到它潜力无限,并再一次感受到 AGI。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

Jim Fan 认为,o1 透露出的研究进展可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最关键的发现。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

他还提到了两篇近期发表的关于 Scaling Law 的论文,并指出 OpenAI 早已意识到这一点,并通过 o1 证实了这些发现。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现


大模型+强化学习=AGI?

大模型与强化学习的结合是近几年来的热门研究方向之一。

大模型的泛化能力和背景知识与强化学习的交互学习和任务优化相结合,可以创建出能够更好地适应复杂环境、解决多任务问题、并提供更高效和可解释决策的智能系统。这种互补性使得两者的结合成为推动机器智能增长的关键方向。

o1 大模型的发布,首次证明了语言模型可以进行真正的强化学习。而 OpenAI 的一位研究员说,o1 证明了强化学习才是通往 AGI 道路上的必备要素(RL研究者狂喜)

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

OpenAI 另一位专注推理的研究员也说,通过强化学习,o1 能够在做出反应进行“思考”,让他们不用再受预训练的瓶颈限制,终于可以做扩展推理计算了。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

强化学习和LLM可以说是非常适配了,只不过在 o1 之前还没有人能用 LLM 真正实现强化学习。

之前就有人说,模仿是 LLM 训练的基础,而模仿其实就是强化学习的问题。

DeepMind 的新论文也有提到,与监督学习相比,强化学习可以更好地利用序列结构、在线信息并进一步提取奖励。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

领导 DeepMind 强化学习研究小组的David Silver,也在前段时间的演讲中强调,“需要重新关注强化学习,才能走出 LLM 低谷。”


局限

不过,一众好评声中,也有人指出了 o1 存在的一些问题。

Andrej Karpathy 在测试后发推特说,o1-mini 还是有大模型的老毛病,问它黎曼假设这类复杂问题就偷懒逃避。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

Gary Marcus 认为 o1 并不是通用机器智能(AGI),甚至离 AGI 还很远。

他尖锐地点出了 o1 的八条问题,从多个方面批评了o1模型的细节披露不足、改进不够全面,认为实际测试与宣传间存在差距,并提醒消费者要慎重。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

Hugging Face 的 CEO 也表示,AI 并不是在思考,只是在在“处理”、“运行预测”……和谷歌或者计算机做的事情是一样的。这种工艺系统是人类的错误印象,只是廉价的骗术和营销手段,让人误以为它比实际更聪明。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

OpenAI 自己也承认了 o1 的不足。在一些自然语言任务测试中,尤其是写作能力方面,GPT-4o 还是更胜一筹。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

并且,o1 的推理依然存在缺陷,在实现质的提升的同时也没能解决LLM的幻觉问题。

著名程序员、Django Web 框架的联合创建者 Simon Willison 在推特上收集在 GPT-4o 上推理失败,但在 o1 成功的例子,只找到了几个让他满意的案例。他认为从推理来看,o1 并不是 GPT-4o 的升级版。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

他在博客中写道,o1 并不是简单的 GPT-4o 升级版,而是通过在成本和性能方面引入重大权衡,换取了更进一步的推理能力。

很明显,o1 和 GPT-4o 代表大模型的两个不同方向。OpenAI 也提到,以后会分别研发升级两个模型,这意味着,过去适用于 GPT-4o 的 Prompt 技巧未必同样适用于 o1。


实测

那么,o1 的表现到底怎么样呢?

在 Toqan 的排行榜中,我们可以看到 OpenAI O1 模型在 ProLLM StackUnseen 基准测试中表现出来的水平,比 SOTA 要高出 20%。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

elvis 做了详细测试,他提到 o1-preview 能够一次性解决很多难以回答的问题,包括很多当前大型语言模型(LLMs)难以处理的数学问题。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

他的完整测试影片已经上传YouTube,可以点击以下链接观看:

https://www.youtube.com/watch?v=xJJ2h3wQByg

OpenAI 首席研究官 Bob McGrew 在The Verge的采访中说,“从根本上说,o1 是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”雷峰网雷峰网(公众号:雷峰网)

o1-preview和o1 mini已经带给我们这么多惊喜,不敢想最后发布的o1到底能有多强悍,让我们拭目以待。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现

风闻闻

更多 >
  • 电影中的抗战——华中根据地新四军铁骨战强敌
    更新:2025-09-09 14:52
  • 拒绝「PPTSD」!通义上线PPT新功能,重塑工作学习流
    更新:2025-09-09 14:41
  • 放言库尔斯克固若金汤的州长,开枪自杀了
    更新:2025-09-09 13:46
  • 解读:物理诺贝尔奖为何颁给了HNN之父和深度学习之父?
    更新:2025-09-09 12:20

热门文章

  • 国内首例!女子出差时被领导性侵,认定工伤后获赔113万,她说:遭遇侵害不耻辱,沉默才会让施暴者更猖狂
    国内首例!女子出差时被领导性侵,认定工伤后获赔113万,她说:遭遇侵害不耻辱,沉默才会让施暴者更猖狂

    国内首例!女子出差时被领导性侵,认定工伤后获赔113万,她说:遭遇侵害不耻辱,沉默才会让施暴者更猖狂

    “监控里,我从他房间出来的时候没有穿鞋。”崔丽丽常常会做噩梦,梦里她在一片无尽的黑暗里寻找自己的鞋子,却怎么也找不到。哪怕那天的记忆因为醉酒而模糊,深入骨髓的恐惧和伤害也在潜意识里隐隐作痛。2023年 ...

  • 新蜂音乐节成都站圆满收官 夏日快乐充电站玩法Max
    新蜂音乐节成都站圆满收官 夏日快乐充电站玩法Max

    新蜂音乐节成都站圆满收官 夏日快乐充电站玩法Max

    来源标题:新蜂音乐节成都站圆满收官 夏日快乐充电站玩法Max当打工人遇上新蜂音乐节,一场打破常规、释放情绪的暑期狂欢盛大开启!7月5日至6日,由阔景音乐与潮石音乐联合打造的新蜂音乐节在成都震撼开唱。作 ...

  • “IP出海”助力中国文化走出去
    “IP出海”助力中国文化走出去

    “IP出海”助力中国文化走出去

    来源标题:“IP出海”助力中国文化走出去在沙特阿拉伯利雅得,观众在《哪吒之魔童闹海》的宣传展板旁拍照留念。新华社发放眼近期全球市场,从《黑神话:悟空》到《哪吒之魔童闹海》,再到LABUBU拉布布),来 ...

  • 暑期必追《童话故事下集》柯佳嬿精神状态遥遥领先
    暑期必追《童话故事下集》柯佳嬿精神状态遥遥领先

    暑期必追《童话故事下集》柯佳嬿精神状态遥遥领先

    来源标题:暑期必追《童话故事下集》柯佳嬿精神状态遥遥领先 近日,由时创影业股份有限公司出品台剧《童话故事下集》全集登陆爱奇艺,该剧是由李念修担任编剧、剪辑、导演,柯佳嬿、刘以豪、柯淑勤、郑志伟、曾敬骅 ...

  • 中国最懂女人的男人:牵手林志玲,年入30亿
    中国最懂女人的男人:牵手林志玲,年入30亿

    中国最懂女人的男人:牵手林志玲,年入30亿

    文 | 万棱镜,作者|沐风,编辑|小峰他,被称为“中国最懂女人的男人” 。这个男人不是导演,也不是明星,却总是出现在女星的身边。10年前,他牵起林志玲的手,把她带进了中国县城的内衣店里;如今,徐冬冬、 ...

  • 基座大模型「六进二」:南阶跃,北智谱
    基座大模型「六进二」:南阶跃,北智谱

    基座大模型「六进二」:南阶跃,北智谱

    作者丨陈彩娴今天消息,阶跃星辰完成了 B 轮融资,总融资金额达数亿美元。AI 科技评论获悉,此次融资有国资、战略和财务投资人等多家参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投 ...

  • 《扫毒风暴》定档7月12日 段奕宏秦昊上演五年生死追猎
    《扫毒风暴》定档7月12日 段奕宏秦昊上演五年生死追猎

    《扫毒风暴》定档7月12日 段奕宏秦昊上演五年生死追猎

    来源标题:《扫毒风暴》定档7月12日 段奕宏秦昊上演五年生死追猎由陈育新编剧,五百执导,蔺水净联合执导,段奕宏、秦昊领衔主演,于文文、吴幸键、刘欢领衔主演,侯岩松特别主演,吴晓亮特邀主演,张世、胡明等 ...

  • 复盘旷视十三年:高光、谷底与重生
    复盘旷视十三年:高光、谷底与重生

    复盘旷视十三年:高光、谷底与重生

    01 年轻人的时代印奇对人工智能的执著,比旷视成立要早几年。2006 年,这个 88 年出生的安徽小伙在清华自主招生考试与全国高考中均取得十分优秀的成绩。报考专业时,他特地询问招生办的老师:“我想研究 ...

全秀

更多 >
风闻聚WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI
娱乐日本专家:本次参议院选举或将影响日本政局走向
快爆传月之暗面完成 3 亿美元融资,最新估值 33 亿美元;OpenAI 加持,最强人形机器人 Figure 02 登场丨AI情报局
趣趣商汤徐立:未来核心战略在于无缝集成基础设施、人工智能模型和应用
风谈新女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报
新料古装甜宠短剧《绾君心》热播,山海星辰打造颜值盛宴

快点

更多 >