{label:top}
首页 >> 快讯> 正文

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

来源:快讯发布时间:2025-09-09 17:54:33
浏览:466

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,项工Kimi k1.5 成了话题王者。推特苏州师范大学门事件体验

但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出,推特瞬间吸引了数万人关注。热帖

推特热帖:k1.5 很牛,因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>深圳医科大学泄露评价</strong>这项工艺

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着,他开始对 SPPO 工艺进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

找番

更多 >
  • 北电数智 WAIC 首秀,展示星火·大平台落百业成果
    更新:2025-09-09 17:08
  • 拍摄广告时一脚球击坏摄像机,贝克汉姆:他们让我瞄准摄像机
    更新:2025-09-09 16:44
  • 他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果
    更新:2025-09-09 15:33
  • 独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
    更新:2025-09-09 15:14

热门文章

  • “高速有人戴恐怖面具惊吓过路车辆”?警方通报
    “高速有人戴恐怖面具惊吓过路车辆”?警方通报

    “高速有人戴恐怖面具惊吓过路车辆”?警方通报

    27日凌晨,杭州高速交警发布警情通报,全文如下:警情通报针对网传“长深高速有人戴恐怖面具惊吓过路车辆”事件,经查,涉事人员系萧山区某校外籍老师Hugo男,42岁)。8月24日16时57分,其搭乘朋友车 ...

  • 62岁李连杰突发,已交代身后事
    62岁李连杰突发,已交代身后事

    62岁李连杰突发,已交代身后事

    不过大梦一场空封面 I 李连杰抖音作者 I 李东阳报道 I 李东阳朋友圈有关李连杰,近些年舆论场散落的大多是针对其衰老以及“被死亡”的猜测。在那个崇尚英雄的年代,李连杰塑造的武侠世界是几代人共同的宝贵 ...

  • 国航伦敦飞北京航班因故障备降俄罗斯,航司通报
    国航伦敦飞北京航班因故障备降俄罗斯,航司通报

    国航伦敦飞北京航班因故障备降俄罗斯,航司通报

    中国国际航空8月27日通报,北京时间8月26日,从伦敦前往北京的CA856航班在飞行过程中出现机械故障,机组按程序处置安全备降。为做好旅客服务保障,国航于当日调机前往备降机场执行后续航班任务,该调机航 ...

  • 北电数智 WAIC 首秀,展示星火·大平台落百业成果
    北电数智 WAIC 首秀,展示星火·大平台落百业成果

    北电数智 WAIC 首秀,展示星火·大平台落百业成果

    7月26日,2025世界人工智能大会暨人工智能全球治理高级别会议WAIC)在上海盛大启幕。这场以“智能时代 同球共济”为主题的人工智能顶尖盛会,汇聚了来自30余个国家和地区的1200余位科技企业代表、 ...

  • 中国“人工智能+”行动“路线图”来了
    中国“人工智能+”行动“路线图”来了

    中国“人工智能+”行动“路线图”来了

    新华社北京8月26日电新华社记者魏玉坤8月26日,“人工智能+”行动迎来重要进展:国务院印发的《关于深入实施“人工智能+”行动的意见》对外发布,明确了实施“人工智能+”行动的总体要求、发展目标和重点方 ...

  • 词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆
    词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆

    词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆

    8月20日深夜,著名歌手千百惠因病去世的消息传遍网络,引发公众追念。当晚,著名词作家杨湘粤向南都N视频记者回忆道,今年6月下旬,千百惠还来到深圳,与周冰倩同台演唱了《走过咖啡屋》。“她是一个乐观、豁达 ...

  • 上海AI Lab庞江淼:开放平台是具身智能“ChatGPT时刻”的前提丨具身先锋十人谈
    上海AI Lab庞江淼:开放平台是具身智能“ChatGPT时刻”的前提丨具身先锋十人谈

    上海AI Lab庞江淼:开放平台是具身智能“ChatGPT时刻”的前提丨具身先锋十人谈

    置身机器人这样的大热赛道,明星研究员总被如此之多的目光注视着。但关于庞江淼,网络查到的信息寥寥。为数不多的内容是,聚焦计算机视觉,浙江大学博士,香港中文大学MMLab研究员,接下来一份经历就是现在了— ...

  • 1.9亿税收的县城,要花17亿重建?
    1.9亿税收的县城,要花17亿重建?

    1.9亿税收的县城,要花17亿重建?

    来源:中国新闻周刊“村超”回来了。8月23日晚,2025年贵州“村超”全国赛总决赛在榕江县“村超”球场开赛。经过激烈角逐,广东肇庆金利诚峻足球队捧起首届“村超”全国赛总冠军奖杯。很难想象,就在两个月前 ...

风趣新

更多 >
  • 出身“企鹅”的“T4大神”,带领小鹅通闯关港交所
    出身“企鹅”的“T4大神”,带领小鹅通闯关港交所

    每经记者 蔡 鼎 每经编辑 魏文艺8月22日,港交所官网显示,SaaS软件运营服务)解决方案供应商深圳小鹅网络技术有限公司Xiaoe Inc。,以下简称小鹅通,证券简称“XIAOE”)当日向港交所首次 ...

  • “高速有人戴恐怖面具惊吓过路车辆”?警方通报
    “高速有人戴恐怖面具惊吓过路车辆”?警方通报

    27日凌晨,杭州高速交警发布警情通报,全文如下:警情通报针对网传“长深高速有人戴恐怖面具惊吓过路车辆”事件,经查,涉事人员系萧山区某校外籍老师Hugo男,42岁)。8月24日16时57分,其搭乘朋友车 ...

  • 女性主动追爱,为何被骂“媚男”?
    女性主动追爱,为何被骂“媚男”?

    最近刷恋综了吗?都在聊徐如蓝。有人夸她“情商天花板”,也有人说她“魅魔操作”“心机撩汉”。当女性在感情中展现主动,污名化的标签总是来得比掌声更快。怎么女生一主动,就变成了原罪?恋综女嘉宾,被骂媚男?最 ...

  • “高速有人戴恐怖面具惊吓过路车辆”?警方通报
    “高速有人戴恐怖面具惊吓过路车辆”?警方通报

    27日凌晨,杭州高速交警发布警情通报,全文如下:警情通报针对网传“长深高速有人戴恐怖面具惊吓过路车辆”事件,经查,涉事人员系萧山区某校外籍老师Hugo男,42岁)。8月24日16时57分,其搭乘朋友车 ...

  • 中美俄战略三角,有新动向
    中美俄战略三角,有新动向

    来源:直新闻直新闻:在近来美俄乌欧的互动中,您觉得中国发挥了什么样的重要作用?特约评论员 庚欣:近日,中美俄大国关系出现了一些新的互动局面。中美和美俄之间分别就经贸纠纷和军事冲突等都在展开磋商。8月1 ...

  • 62岁李连杰突发,已交代身后事
    62岁李连杰突发,已交代身后事

    不过大梦一场空封面 I 李连杰抖音作者 I 李东阳报道 I 李东阳朋友圈有关李连杰,近些年舆论场散落的大多是针对其衰老以及“被死亡”的猜测。在那个崇尚英雄的年代,李连杰塑造的武侠世界是几代人共同的宝贵 ...

  • 我国虚拟电厂总规模超3500万千瓦
    我国虚拟电厂总规模超3500万千瓦

    每经记者 周逸斐 每经编辑 陈 旭8月26日,国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会,邀请国家能源局介绍“十四五”时期能源高质量发展成就。国家发展改革委党组成员、国家能源局局长王宏志 ...

  • 中国月度用电量首破万亿大关
    中国月度用电量首破万亿大关

    全社会用电量7月历史性突破万亿千瓦时大关,这在全球也属首次。国家能源局今天对外发布了7月全社会用电量,达1.02万亿千瓦时,同比增长8.6%。比十年前翻了一番,相当于东盟国家全年的用电量。多轮高温天气 ...

  • 走过咖啡屋,再无千百惠
    走过咖啡屋,再无千百惠

    千百惠走了,但她的歌声将永远留在我们心中,成为永恒的经典。文 |阿 晖8月20日晚,歌手黄安发出讣告,称自己的好友女歌手千百惠去世,享年62岁。千百惠身边一名工作人员也向媒体证实,千百惠于8月19日因 ...

  • 今日最佳:我到底有多帅?
    今日最佳:我到底有多帅?

    来源微博:@迷惑行为大赏有一说一,长得太精致了。 ...

  • 即日起,江苏苏州取消市区范围内新建商品住房2年限售
    即日起,江苏苏州取消市区范围内新建商品住房2年限售

    为进一步满足居民改善性住房需求,即日起,取消苏州市区范围内新建商品住房取得不动产权登记证书满2年方可转让的限制措施有特殊限制转让要求的住房除外)。来源:苏州住建)相关新闻70城最新房价出炉,国家统计局 ...

  • 陆虎陈曌旭首次合体大片甜度超标,他们的爱情咋这么好“磕”!
    陆虎陈曌旭首次合体大片甜度超标,他们的爱情咋这么好“磕”!

    甜蜜对视、默契互动,陆虎和陈曌旭的首次时尚合体拍摄简直就是大型撒糖现场!《时尚芭莎珠宝》八月刊迎来了一对特别甜蜜的CP——陆虎和陈曌旭嘘嘘)。这是俩人首次合体拍摄时尚大片,现场工作人员透露:“整个拍摄 ...

风台深北电数智 WAIC 首秀,展示星火·大平台落百业成果
风趣追专访宗馥莉:我不会因为风波改变方向
风事汇走过咖啡屋,再无千百惠
热看62岁李连杰突发,已交代身后事
全讯泰国被停职总理佩通坦就其涉嫌违宪案出庭作证
风谈视北约举行成员国防长会 确认支持乌克兰

风趣闻

更多 >