{label:top}
首页 >> 事谈> 正文

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

来源:事谈发布时间:2025-09-09 17:47:38
浏览:22


2020 年,最具证并1750 亿参数规模的工艺果 GPT-3 问世。彼时,想象小钢完整训练 1750 亿参数的力成模型需要 3.14E11(TFLOPS)的每秒浮点运算量。如果使用英伟达 80GB A100 GPU(16位浮点算力有 312 TFLOPS,布新但在分布式环境中很难达到峰值),架构加速苏州高中绯闻价格按照每张显卡 1.5 刀每小时的面壁面壁租赁价格来算,则需要使用一千张 A100 、炮又花费81.6 万刀、次验用 22 天才能完成整个训练过程。定律

2024 年,最具证并大模型只需使用 2B 的工艺果参数规模即可达到和 2020 年的 GPT-3 一样的性能表现。

这一现象,想象小钢类似于半导体领域中的力成「摩尔定律」——集成电路上可容纳的晶体管数目约每隔两年便会增加一倍,芯片性能因此持续提升。布新芯片制程带来终端算力持续增强,模型制程带来模型知识密度持续增强,两者交汇揭示端侧智能巨大潜力。

面壁此前推出的端侧多模态大模型—— MiniCPM-Llama3-V 2.5 ,实现了「以最小参数,撬动最强性能」的最佳平衡点。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

而大模型行业也有自己的摩尔定律,纵观 OpenAI 的 GPT 系列大模型和各类开源大模型,会发现大家都在“默契”地按照如此轨迹演化。

基于这一发现,深圳高中曝光下载面壁智能提出了面壁定律——大模型的知识密度平均每 8 个月提升一倍。

其中,知识密度=模型能力 / 推理算力能耗。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

当前,大模型架构-运算规则-信息等多重因素交织的工艺⽅案仍在⾼速迭代,模型制程仍有极大的改进空间,实现知识密度的极致提升。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

面壁定律图

正如面壁定律所揭示的知识密度增长趋势,面壁持续贯彻高效Scaliing,通过模型沙盒,在小模型中寻找最优信息和超参配置再外推至大模型,推出了知识密度极高的 MiniCPM 小钢炮旗舰端侧大模型系列,主要包括以小博大的 MiniCPM 2.4B + 1.2B 的基座模型、 可对标 GPT-4V 的 MiniCPM -V 端侧多模态模型以及最小 128K 长文本模型和高性能 MOE 模型。

信息表明,相比 GPT-3,参数规模小的多的 MiniCPM2.4B 具备同等性能, 整体知识密度提高了约86倍。

面壁高效大模型还在持续进化中。在今年的世界机器智能大会(WAIC 2024)上,面壁发布了高效稀疏模型 MiniCPM-S 和助力开发者打造 SuperAPP 的全栈式工坊 MobileCPM。

MiniCPM-S 不仅完美承接过去面壁智能一系列高效端侧大模型工作,更体现面壁在坚定地按照其所提出的高效 Scaling 路径持续发力,同时又一次验证并加速了面壁定律。

从最初出圈的 AI Infra 到 小钢炮端侧大模型,面壁智能无一不是在非共识阶段就打出「先手」,走在 AGI 工艺研究的前沿,预测大模型增长趋势,成为大模型行业增长风向标。


一、 MiniCPM-S:2.8倍推理速度提升,FFN 模块 84% 成本降低

在以 LLaMA2 7B 为代表的主流开源大模型中,就存在稀疏激活现象。LLaMA2 FFN 模块稀疏度为 70% 左右,每个词元(token) 保留输出数值较大的 30% 神经元参与计算即可让下游任务表现不发生显著下降。稀疏度越高,每个 词元激活的神经元越少,模型推理所需的计算量就越少。

与采用稠密计算的模型相比,采用稀疏计算的模型对给定的词元输出的「激活值」有很多为0、或者非零但对结果作用很小,这些激活值所对应的神经元可称为处于「未激活」状态,在推理时跳过这些未激活的神经元,可实现显著加速。

然而,现有主流大模型在稀疏激活上面临两个困境:一方面,稀疏模型大都基于 Swish、GELU 等无法输出大量零元素的激活函数,需要进行激活阈值搜索方可界定神经元的激活与否,其稀疏激活特性利用起来较为复杂,且在推理时强制跳过阈值下的非零神经元容易造成性能损失;另一方面,其稀疏度仍相对有限,如 LLaMA2 停留在 70% 左右。

对此,面壁的 MiniCPM-S 提出了 ProSparse 的稀疏激活解决方案:

首先,将激活函数从 Swish 重新替换为 ReLU(最初的Transformer即采用ReLU激活),使激活值自然地存在大量零元素,跳过这些零激活值的神经元严格无损。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

然后,通过渐进式的、带约束的稀疏感知训练,提升稀疏度。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

结果显示,性能持平,且将神经元激活比例降至约 10%。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

论⽂地址:https://arxiv.org/pdf/2402.13516.pdf

模型地址:https://huggingface.co/openbmb/MiniCPM-S-1B-llama-format

PowerInfer 

可运⾏ GGUF 地址:https://huggingface.co/openbmb/MiniCPM-S-1B-sft-gguf

基于此,面壁推出 MiniCPM-S 高效稀疏激活模型。具体而言,这一模型有三大特点:

Sparse:高度稀疏。MiniCPM-S 的 FFN 模块具有极高的稀疏度,平均可达到 87.89%,FFN FLOPS 下降 84%,大模型能耗与推理成本显著降低。

Speed:高效推理。相比采用稠密计算模式的模型,能使用更少计算量进行更快速的推理, 在纯 CPU 环境下推理时,结合Powerinfer推理框架,decode 速度提升 2.8 倍。

Strong:强大性能。虽然计算量变少,但无损于下游任务性能,其中,神经元激活比例降至12.1% ,知识密度相比稠密模型提升 2.57 倍、相比Mistral-7B 提升 12.1 倍。

可以说, MiniCPM-S 又一次验证了过去基于面壁定律发布的 MiniCPM 1.2B 和 MiniCPM 2.4B ,并且在时间上进行了加速,高效 Scaling Law 仍在持续演化。


二、MobileCPM:降低开发者门槛,一键集成端侧大模型到APP

随着大模型赛道的进一步演进,一个共识是:基座大模型只属于资源充足的少数玩家,普通创业者的机会更多是在上层应用。基于此,涌现了诸多AI 原生应用和 Agent 产物,以及与其相对应的能够起到强大支撑能力的 APP 开发工具和平台。

目前市面上的大模型 APP 开发平台的共性是易用、精度高、易部署、保障可靠等特点,而其中能做到提供端侧大模型接口的则少之又少。然而,除了共性的「一键集成、开箱即用」优势,面壁智能基于团队本身强大的高效端侧模型能力推出了 MobileCPM ,如此一来即无需云端 GPU ,实现真正的零推理成本,100 万 tokens 只需要 0 元。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

可以说,MobileCPM 拉开基于端侧模式 APP 探索的帷幕,再次降低了开发者开发大模型应用的门槛,并且增加了端侧大模型应用这一选项,真正改变了过去C端产物云端支持成本⾼昂的商业模式,为⼤模型产物创新提供了新可能。

具体来看,MobileCPM 可以提供三种模式:

基础模式:包含了丰富的适配端侧⼤模型 APP 的 SDK 套件,开发者基于此即可⾃由灵活地搭建⼤模型 APP,但在这个过程中,底座模型和智能体仍需要开发者⾃⾏开发和接⼊;

精装模式:在基础模式基础上,提供 1.2B 参数的⾯壁新⼀代⾼效稀疏⼤模型 MiniCPM-S,并且MobileCPM 还支持任意端侧模型的集成,开发者可以根据具体需求选择替换其它端侧模型,并可以通过增加或修改prompt的方式定制多种API,满足不同业务场景需求。

全包配件模式:在精装模式的基础上预装丰富的 intent,并提供保姆式教程,开发者也可使用自定义 intent,减少开发时间,⼤幅提升应⽤的丰富性。

于开发者而言,无需 GPU,只需使用 MobileCPM 即可在手机本地部署大模型,在很大程度上消除了隐私问题的担忧。并且,也不要求顶配手机,五年内发布的手机运行起来均无压力,端侧毫秒级响应,iphone 15 实测下,推理速度轻松可达 30 tokens/s,相当于人类语速的18~30倍。

更关键的是,MobileCPM 已经全⾯⽀持 iOS系统,立时可用,Android 版本也即将开启公测,预计即将正式发布。

MobileCPM 开源地址:https://github.com/OpenBMB/MobileCPM

MobileCPM 这一破坏式创新可以让任何开发者都能一键集成产物,实现大模型与 APP 的无缝对接。


三、面壁与 AGI 千里江山图

实际上,摩尔定律不仅意味着性能的提升和能耗、成本的下降,还意味着整个行业需要不停奔跑才能留在原地,在变相地推动行业去吃苦钻研、迭代工艺。

大模型时代的面壁定律亦是如此,在本就乾坤未定的 AGI 增长格局中,从更深层次来看,这一规律也拉出一条行业基本线。也就是说,一定会有先行者率先站出来进行工艺的革新,指出并试验出一条工艺迭代的可行路径,而后将其开放出来供行业使用、共同进步。

面壁智能就扮演了这样的角色。

早在面壁智能成立之前,高效的基因就刻在团队的基因里。而经过一年多的探索与实践,从 MiniCPM-2B 到 MiniCPM-S,从不输 OpenAI 的 Scaling Law 曲线到面壁定律,「高效」在这一团队也中不断生出新的定义,被赋予新的内涵。雷峰网雷峰网雷峰网(公众号:雷峰网)

当下,面壁团队会将面壁定律视作高效大模型的第一性原理,后续将会一直用实际成果一次次验证它。面壁智能联合创始人&CEO 李大海公开表示,在 2026 年年底,面壁就可以做到 GPT-4 水平的端侧模型。

除了工艺层面的进步,商业化落地也是团队极其看重的事情,一直在以积攒 know-how 的方式去广泛、高效地探索大模型落地的各种途径。现已支持过大 B 企业,也尝试过 2B2C,涉及领域包括金融、营销、法律、内容。

在 WAIC 2024 上,面壁智能首席科学家刘知远还透露了关于穿戴设备、智能硬件等更多端侧 AI 的场景和应用,这些也预示着端侧 AI 生态的序幕即将拉开。

之所以将重点聚焦到端侧,一方面是因为端侧是落地起来更具象化、更现实的途径;另一方面也是因为面壁一直在做离客户最近的事情。

李大海曾说道,现在的 AGI 赛道就像一个千里江山图在徐徐展开,它代表了「生态里不同企业需要紧密合作」的现状。当下,面壁在这幅图中的位置逐渐清晰。

现在可以放心大胆地说:高效大模型,就看面壁智能!


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

WAIC 最具工艺想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

风点事

更多 >
  • 最后冲刺! 人身险产品切换倒计时
    更新:2025-09-09 17:04
  • 九省份保险业已赔付暴雨灾害损失5.2亿元
    更新:2025-09-09 17:00
  • 财政部发布关于国债等债券利息收入增值税政策的公告
    更新:2025-09-09 16:46
  • 热搜爆了!知名女星喊话:不用你们封杀我,我不干了
    更新:2025-09-09 15:08

热门文章

  • 千百惠曾谈衰老:不要一直想到我年轻的时候,要坦然面对老去
    千百惠曾谈衰老:不要一直想到我年轻的时候,要坦然面对老去

    千百惠曾谈衰老:不要一直想到我年轻的时候,要坦然面对老去

    著名歌手千百惠于8月19日凌晨因病离世,享年62岁。南都N视频记者注意到,千百惠曾表示,“人怎么不会老呢?不要一直想到我年轻的时候,听众长大了,我也老了。我们要坦然面对慢慢老去的事实。”她还说,“我的 ...

  • 法拉利老了还是法拉利:神秘的亚洲神颜贵公子
    法拉利老了还是法拉利:神秘的亚洲神颜贵公子

    法拉利老了还是法拉利:神秘的亚洲神颜贵公子

    Hi,时髦精 & 富一代们我小时候看晋江网文,发现大大们最爱用这些词汇来形容拥有盛世美颜的男性:风华绝代、雌雄难辨。很长时间里,我觉得这种人只存在于二次元,直到我知道了尊龙。尊龙的一生都很传奇 ...

  • 台湾知名媒体人翟翾离职,哽咽称会坚持做两岸交流节目、不让祖先蒙羞
    台湾知名媒体人翟翾离职,哽咽称会坚持做两岸交流节目、不让祖先蒙羞

    台湾知名媒体人翟翾离职,哽咽称会坚持做两岸交流节目、不让祖先蒙羞

    海峡导报综合报道台湾知名电视台主持人翟翾1日离职,当天在直播时坦言,“我并不是觉得自己的自媒体做得很了不起才单飞”,因为如果不做两岸交流的节目,继续留在舒适圈,她可能会后悔。她也哽咽说,在面对挑战的时 ...

  • 演员赵露思发文:不用你们封杀我,我不干了
    演员赵露思发文:不用你们封杀我,我不干了

    演员赵露思发文:不用你们封杀我,我不干了

    8月2日,赵露思发布微博@银河酷娱传媒,相关话题冲上热搜。2日晚,赵露思发文谈解约风波,并晒出重度焦虑和抑郁测评报告:等到现在也没有等来任何沟通,前年愚蠢的续约还有四年的经济约,所以人家也不着急,就我 ...

  • 电影中的抗战——百团大战破囚笼
    电影中的抗战——百团大战破囚笼

    电影中的抗战——百团大战破囚笼

    打一个大仗,打出中国人的勇气!1940年8月到1941年1月,八路军在华北敌后发动大规模进攻和反“扫荡”战役,沉重打击了日军“囚笼政策”。这场战役共有105个团,约20万人参战,因此被称为“百团大战” ...

  • 陈龙:参演重大革命历史题材肯定是一次精神洗礼
    陈龙:参演重大革命历史题材肯定是一次精神洗礼

    陈龙:参演重大革命历史题材肯定是一次精神洗礼

    来源标题:陈龙:参演重大革命历史题材肯定是一次精神洗礼电视剧《浴血荣光》正在央视一套热播。该剧由陈力执导,以“党的建军路线”为叙事主线,艺术再现了中国共产党领导的人民军队初创时 ...

  • 什么时候才能停止对马思纯身材的审视?
    什么时候才能停止对马思纯身材的审视?

    什么时候才能停止对马思纯身材的审视?

    为了健康,马思纯瘦了回黎吧啦。公众人物的身材似乎永远逃不过大众的审视——胖了被议论,瘦了被讨论。然而,当马思纯以健康、自信的状态重新出现在大众视野时,我们是否该反思:这种对女性身体的过度围观,何时才能 ...

  • 外交部驻港公署:绝不接受、绝不容忍、绝不姑息
    外交部驻港公署:绝不接受、绝不容忍、绝不姑息

    外交部驻港公署:绝不接受、绝不容忍、绝不姑息

    据外交部驻港公署微信公众号8月1日消息,针对加拿大、新西兰外长以及欧盟对外行动署发言人等政客妄议香港特区警方依法通缉反中乱港分子,公然诋毁香港法治和人权状况,肆意抹黑香港国安法,外交部驻港公署发言人表 ...

独报

更多 >
  • 阻挠推搡昆明台记者采访,涉事人被行政拘留10日
    阻挠推搡昆明台记者采访,涉事人被行政拘留10日

    针对网传“昆明广播电视台记者采访被打受伤”一事,昆明市新闻工作者协会高度重视,第一时间了解核查相关情况,现通报如下。8月18日下午,昆明市民吉先生通过昆明市融媒体中心“8099999”微信公众号后台留 ...

  • 外交部驻港公署:绝不接受、绝不容忍、绝不姑息
    外交部驻港公署:绝不接受、绝不容忍、绝不姑息

    据外交部驻港公署微信公众号8月1日消息,针对加拿大、新西兰外长以及欧盟对外行动署发言人等政客妄议香港特区警方依法通缉反中乱港分子,公然诋毁香港法治和人权状况,肆意抹黑香港国安法,外交部驻港公署发言人表 ...

  • 勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光
    勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光

    从能容纳十万观众的鸟巢,到不到100平米的直播间,27岁的影子反而觉得自己的舞台变“大”了。至少这里有一束光是专门打给他的。去年7月,喜欢跳舞的影子闯进了“团播”多人才艺直播)行业。镜头拉得足够近,灯 ...

  • 勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光
    勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光

    从能容纳十万观众的鸟巢,到不到100平米的直播间,27岁的影子反而觉得自己的舞台变“大”了。至少这里有一束光是专门打给他的。去年7月,喜欢跳舞的影子闯进了“团播”多人才艺直播)行业。镜头拉得足够近,灯 ...

  • 阻挠推搡昆明台记者采访,涉事人被行政拘留10日
    阻挠推搡昆明台记者采访,涉事人被行政拘留10日

    针对网传“昆明广播电视台记者采访被打受伤”一事,昆明市新闻工作者协会高度重视,第一时间了解核查相关情况,现通报如下。8月18日下午,昆明市民吉先生通过昆明市融媒体中心“8099999”微信公众号后台留 ...

  • 蒙特利尔赛被球员集体投诉,朱琳透露凌晨4点多被火警警报吵醒
    蒙特利尔赛被球员集体投诉,朱琳透露凌晨4点多被火警警报吵醒

    中国金花朱琳不久前更新了自己的社交媒体,透露其竟然在早上4点多就被火警警报吵醒了,并表示这已经是第二次了。消息一出,有网友发现多位网球选手也都发文谈到了这一问题,而这也让蒙特利尔赛事组委会再次被送上舆 ...

  • 上天入海、千里驰援 有种安全感叫解放军在我身边
    上天入海、千里驰援 有种安全感叫解放军在我身边

    上天入海、千里驰援只要你需要,他们就在!繁华都市、岛屿边疆只要你需要,他们就在!他们在,安全感就在!今天是建军98周年祝人民子弟兵节日快乐!点击进入专题:中国人民解放军建军98周年 ...

  • 什么时候才能停止对马思纯身材的审视?
    什么时候才能停止对马思纯身材的审视?

    为了健康,马思纯瘦了回黎吧啦。公众人物的身材似乎永远逃不过大众的审视——胖了被议论,瘦了被讨论。然而,当马思纯以健康、自信的状态重新出现在大众视野时,我们是否该反思:这种对女性身体的过度围观,何时才能 ...

  • 千百惠曾谈衰老:不要一直想到我年轻的时候,要坦然面对老去
    千百惠曾谈衰老:不要一直想到我年轻的时候,要坦然面对老去

    著名歌手千百惠于8月19日凌晨因病离世,享年62岁。南都N视频记者注意到,千百惠曾表示,“人怎么不会老呢?不要一直想到我年轻的时候,听众长大了,我也老了。我们要坦然面对慢慢老去的事实。”她还说,“我的 ...

  • 《戏台》彩蛋震撼,余少群演虞姬绝了!17年后再翻红,43岁仍未婚
    《戏台》彩蛋震撼,余少群演虞姬绝了!17年后再翻红,43岁仍未婚

    人生就像一场电影。欢迎点击上方蓝字关注『头号电影院懂小姐』头号电影院懂小姐topcinema原创,严禁转载)友情提示:本文涉及剧透,介意者请提前绕行)陈佩斯的电影《戏台》火了,主演余少群,也火了。43 ...

  • 特写|饥饿围城:加沙的生死挣扎
    特写|饥饿围城:加沙的生死挣扎

    威利文Caroline Willemen)无法忘记那个名叫阿米娜的11岁女孩一次在饮水发放点对她说的话:“最好一颗大炸弹把我们全炸死,我不想像现在这样每天慢慢死去。”这句话道出了整个加沙眼下的绝望处境 ...

  • 勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光
    勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光

    从能容纳十万观众的鸟巢,到不到100平米的直播间,27岁的影子反而觉得自己的舞台变“大”了。至少这里有一束光是专门打给他的。去年7月,喜欢跳舞的影子闯进了“团播”多人才艺直播)行业。镜头拉得足够近,灯 ...

风点老年人免费乘公交,撑不住了?
短话结束20年婚姻,她终于不忐忑了
瓜汇法拉利老了还是法拉利:神秘的亚洲神颜贵公子
时尚内娱最强星二代,也翻车了
专榜中方是否承认塔利班的阿富汗临时政府?外交部回应
独瓜无声的较量与厮杀!信息支援部队攻防演练首次公开

风事报

更多 >