{label:top}
首页 >> 风闻报> 正文

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

来源:风闻报发布时间:2025-09-09 00:13:32
浏览:92117

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,项工Kimi k1.5 成了话题王者。推特赵某网红翻车完整版

但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出,推特瞬间吸引了数万人关注。热帖

推特热帖:k1.5 很牛,因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>何某明星塌房热搜截图</strong>这项工艺

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着,他开始对 SPPO 工艺进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

风闻台

更多 >
  • 阻挠推搡昆明台记者采访,涉事人被行政拘留10日
    更新:2025-09-08 23:45
  • 日本战败80周年,“石破茂考虑不发表个人谈话”
    更新:2025-09-08 23:01
  • 陈芋汐夺世锦赛单人项目第四金,加冕本届赛事三冠王
    更新:2025-09-08 22:04
  • 内娱最强星二代,也翻车了
    更新:2025-09-08 21:39

热门文章

  • 老年人免费乘公交,撑不住了?
    老年人免费乘公交,撑不住了?

    老年人免费乘公交,撑不住了?

    来源:中国新闻周刊近日,吉林省德惠市发布的一则《免费老年卡错峰出行通知》引发了社会关注。该通知提到,因早晚高峰时间段公共交通拥挤,无法保证上学、通勤人群的刚性出行需求,计划自9月1日起对持有免费“老年 ...

  • 靳东与江珊同居5不婚真相曝光,刺痛无数中年女人:如果能早点知道,这事必须马上做……
    靳东与江珊同居5不婚真相曝光,刺痛无数中年女人:如果能早点知道,这事必须马上做……

    靳东与江珊同居5不婚真相曝光,刺痛无数中年女人:如果能早点知道,这事必须马上做……

    一觉醒来:58岁的江珊炸上热搜!什么,你跟我说这是58岁的江珊?印象中她女儿都快成家了吧,但这照片看着也就30岁出头啊?为此我还去扒了下视频:确认过眼神,就是她本人没错!说不出哪变了,但感觉年轻了好多 ...

  • 男子称遭奔驰司机“亮证”逼迫让路,警方通报
    男子称遭奔驰司机“亮证”逼迫让路,警方通报

    男子称遭奔驰司机“亮证”逼迫让路,警方通报

    8月1日晚,防城港市公安局边境管理支队发布情况通报称,8月1日上午,有网民及媒体发布视频称“会车遇奔驰女司机亮证逼迫让路、派出所民警上门要求删帖道歉”。公安机关已密切关注有关情况,现已成立工作组展开调 ...

  • 古装悬疑大片《定风波》爱奇艺开播 陈宥维挑战“仵作医师”
    古装悬疑大片《定风波》爱奇艺开播 陈宥维挑战“仵作医师”

    古装悬疑大片《定风波》爱奇艺开播 陈宥维挑战“仵作医师”

    来源标题:古装悬疑大片《定风波》爱奇艺开播 陈宥维挑战“仵作医师”大婚日变祭日,神探成凶徒,这场风波之下,谁才是真正的“夜煞”?8月1日,由爱奇艺与明日传奇影业联合出品,王星越 ...

  • 绿动算力 超智融合
    绿动算力 超智融合

    绿动算力 超智融合

    “天苍苍,野茫茫,风吹草低见牛羊”,雄浑壮阔的草原风景与“绿水青山就是金山银山”的发展智慧在鄂尔多斯交相辉映。8月13-16日在鄂尔多斯国际会展中心举办的第21届CCF全国高性能计算学术大会CCF H ...

  • 为袁立而呼——让她说话,天塌不下来
    为袁立而呼——让她说话,天塌不下来

    为袁立而呼——让她说话,天塌不下来

    一位曾在荧幕上光彩照人的女演员,如今只剩下微信朋友圈这方寸之地可以发声,在数字时代的中国,这无异于一座孤岛。“在中国,我就一个微信朋友圈还活着,别的平台全部封号。”袁立近日的这句自白道出了她数字生存的 ...

  • 他用相机定格珍贵瞬间 看百名抗战老兵“同框”敬礼
    他用相机定格珍贵瞬间 看百名抗战老兵“同框”敬礼

    他用相机定格珍贵瞬间 看百名抗战老兵“同框”敬礼

    这一张张珍贵的照片,来自正在举办的山西省阳泉市抗战老兵影像展,为把抗战英雄的影像留存,从2014年至今,阳泉市政协委员、寻访抗战老兵志愿者李若冰自费20余万元,行程6000余公里,走访了当地140余位 ...

  • 哥伦比亚大学与美政府达成超2亿美元和解协议
    哥伦比亚大学与美政府达成超2亿美元和解协议

    哥伦比亚大学与美政府达成超2亿美元和解协议

    △哥伦比亚大学资料图)央视记者当地时间8月1日获悉,哥伦比亚大学与白宫达成2.21亿美元和解协议,并同意协助联邦政府加强对国际学生的监管。协议规定,校方将上报包括非法侵入等轻微违规行为,涉事学生或将面 ...

主播瓜谈

更多 >
  • 港交所陈翊庭:港交所将研究24小时交易机制
    港交所陈翊庭:港交所将研究24小时交易机制

    在港交所2025年中期业绩会议上,港交所集团行政总裁陈翊庭表示:“港交所在保持全球竞争力方面始终坚持战略性投入原则。港交所在资本开支方面不会吝啬,我们持续加大在信息平台优化、交易结算系统升级等方面的投 ...

  • 今日辟谣(2025年7月31日)
    今日辟谣(2025年7月31日)

    来源:中国互联网联合辟谣平台2025年7月31日辟谣:有关台风“竹节草”的这些谣言,别再传了!详情:近期,台风“竹节草”登陆我国,引发关注。当公众目光聚焦抗击台风一线时,一些谣言信息却在网络上流传,不 ...

  • 美情报机构盯上我国这一领域!详情披露
    美情报机构盯上我国这一领域!详情披露

    美情报机构频繁对我国防军工领域实施网络攻击窃密国家互联网应急中心CNCERT)监测发现,近年来,美国情报机构将网络攻击窃密的重点目标瞄准我高科技军工类的高校、科研院所及企业,试图窃取我军事领域相关的科 ...

  • 天然钻石行业在奢侈品市场波动中探寻新机遇
    天然钻石行业在奢侈品市场波动中探寻新机遇

    来源标题:天然钻石行业在奢侈品市场波动中探寻新机遇在贝恩公司与意大利奢侈品行业协会Altagamma联合描绘的全球奢侈品15年以来最深远动荡图景中,天然钻石正凭借其独特属性,成为行业调整期的重要价值载 ...

  • 我国虚拟电厂总规模超3500万千瓦
    我国虚拟电厂总规模超3500万千瓦

    每经记者 周逸斐 每经编辑 陈 旭8月26日,国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会,邀请国家能源局介绍“十四五”时期能源高质量发展成就。国家发展改革委党组成员、国家能源局局长王宏志 ...

  • 男子称遭奔驰司机“亮证”逼迫让路,警方通报
    男子称遭奔驰司机“亮证”逼迫让路,警方通报

    8月1日晚,防城港市公安局边境管理支队发布情况通报称,8月1日上午,有网民及媒体发布视频称“会车遇奔驰女司机亮证逼迫让路、派出所民警上门要求删帖道歉”。公安机关已密切关注有关情况,现已成立工作组展开调 ...

  • 周杰伦抖音首秀后的资本局:巨星传奇配售超3亿,要学泡泡玛特?
    周杰伦抖音首秀后的资本局:巨星传奇配售超3亿,要学泡泡玛特?

    出品 | 创业最前线作者 | 星空编辑 | 王亚静美编 | 邢静审核 | 颂文今年7月,“周杰伦概念股”巨星传奇着实火了一把。先是周杰伦高调官宣入驻抖音,令巨星传奇的股价连续多日上涨;后是巨星传奇联手 ...

  • 哥伦比亚大学与美政府达成超2亿美元和解协议
    哥伦比亚大学与美政府达成超2亿美元和解协议

    △哥伦比亚大学资料图)央视记者当地时间8月1日获悉,哥伦比亚大学与白宫达成2.21亿美元和解协议,并同意协助联邦政府加强对国际学生的监管。协议规定,校方将上报包括非法侵入等轻微违规行为,涉事学生或将面 ...

  • 中方是否承认塔利班的阿富汗临时政府?外交部回应
    中方是否承认塔利班的阿富汗临时政府?外交部回应

    【环球时报-环球网报道 记者 李萌】在8月21日外交部例行记者会上,有记者提问称,上个月,俄罗斯正式承认阿富汗的临时政府,请问目前中方是否承认塔利班的阿富汗临时政府?对此,发言人毛宁表示,中国奉行面向 ...

  • 哥伦比亚大学与美政府达成超2亿美元和解协议
    哥伦比亚大学与美政府达成超2亿美元和解协议

    △哥伦比亚大学资料图)央视记者当地时间8月1日获悉,哥伦比亚大学与白宫达成2.21亿美元和解协议,并同意协助联邦政府加强对国际学生的监管。协议规定,校方将上报包括非法侵入等轻微违规行为,涉事学生或将面 ...

  • 外交部驻港公署:绝不接受、绝不容忍、绝不姑息
    外交部驻港公署:绝不接受、绝不容忍、绝不姑息

    据外交部驻港公署微信公众号8月1日消息,针对加拿大、新西兰外长以及欧盟对外行动署发言人等政客妄议香港特区警方依法通缉反中乱港分子,公然诋毁香港法治和人权状况,肆意抹黑香港国安法,外交部驻港公署发言人表 ...

  • 堪察加东岸远海发生6.0级地震,震源深度10千米
    堪察加东岸远海发生6.0级地震,震源深度10千米

    来源:中国地震台网速报#地震快讯#中国地震台网正式测定:08月02日22时14分在堪察加东岸远海北纬51.65度,东经159.60度)发生6.0级地震,震源深度10千米。 @中国地震台网 )点击进入专 ...

吃瓜群众最后冲刺! 人身险产品切换倒计时
瓜报太古集团与香港演艺学院延续合作 支持大湾区青年管弦乐团
风谈榜《扫毒风暴》持续热播,口碑收视均表现突出
短站《霓裳尽欢》开机 孙艺燃裴子添上演极限博弈
短汇女性主动追爱,为何被骂“媚男”?
风报站台湾知名媒体人翟翾离职,哽咽称会坚持做两岸交流节目、不让祖先蒙羞

风谈点

更多 >