{label:top}
首页 >> 风事汇> 正文

国产端侧小模型超越 GPT

来源:风事汇发布时间:2025-09-09 15:00:24
浏览:9586

在刚刚过去的国产机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,端侧其中围绕具身智能的小模型超一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是国产模型适配终端,还是端侧终端适配模型?

过去一年,由于 6B、小模型超商场视频合集流出完整版7B 等小模型的国产成果井喷,以及 MoE 训练工艺的端侧越发成熟,将模型跑在手机、小模型超学习机、国产平板电脑、端侧机器人甚至汽车等等终端应用上的小模型超想象力开始变大,无论运算规则层还是国产硬件层都「蠢蠢欲动」。诚然,端侧这已经成为一个明朗的小模型超行业方向,但在系统整合上却要面临不同话语体系之间的博弈。

以机器人为例。从运算规则层看,将模型做小是关键,但硬件厂商关心的却是模型能否适配自身的产物:

首先,消费机器人有固定的产物周期,从研发到投入市场往往要经历大半年到一年半左右的时间。因此,尽管 ChatGPT 破圈后已经过去一年多,但目前已经上市的扫地机中却没有已经部署大模型的产物;

其次,硬件底层的密室逃脱隐私外泄合集芯片有上限,芯片设计完后就是一个性能参数限定的「物理」产物,其中带宽能跑多少、内存能用多大都已经是已知数,这就直接了应用在硬件上的 AI 模型能用多大参数、跑多快速度。

因此,机器人厂商普遍关注两个问题:一是如何将目标尺寸的大模型跑在固有的芯片上,二是如何使大模型支持好已有的场景,如扫地、语音交互等。

同样的问题也出现在其他的终端应用领域,如手机、平板、学习机等。此外,由于视觉是上一代 AI 与终端应用结合的主流,如智能手机中的人脸识别、语音交互,多模态也成为端侧大模型的性能首选。

这意味着,接下来的端侧大模型爆发将离不开三个要素:一,满足产物形态与适配芯片的需求;二,具备多模态模型能力;三,能够在长周期的产物研发投入中保持具有竞争力的价格优势。

但目前,国内外大模型厂商能聚焦、兼顾三者的团队寥寥无几。这意味着,在未来的 2024 年乃至 2025 年,能够在适配、性能与价格上率先拔得头筹的运算规则团队,将能赢得端侧 AI 领域的最终话语权。

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

图注:OpenCompass 榜单变化显示,小参数、高性能模型逐渐成为 AI 工艺趋势

据 AI 科技评论观察,国内的大模型团队在端侧上也发力迅猛。以多模态能力为例,国外 OpenAI、谷歌,国内阿里、面壁智能等均在 20B 以内参数规模的小模型上有布局。而据了解,20 亿几乎是目前国内芯片厂商正在研发的终端芯片主流支持的参数规模,而面壁正是这一参数量级的代表性玩家。

而近日,主打「小钢炮」的面壁智能所发布的新成果更尤为值得关注!继被吴恩达大力推广的 ChatDev 后,面壁在端侧模型上频出奇招,再次推出端侧多模态模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 与多模态巨无霸 Gemini Pro,引起了海内外的广泛关注。


1、端侧小模型 SOTA 诞生?

据了解,面壁智能最新发布的多模态模型 MiniCPM-Llama3-V 2.5 性能飞跃,今非昔比:

  • 多模态能力飞升:参数规模仅 8B,综合性能却超越谷歌的多模态巨无霸 Gemini Pro 与 OpenAI 的 GPT-4V;

  • OCR 能力 SOTA:能够精准识别长图、难图与长文本,9 倍像素更清晰,同时具备识别与推理能力;雷峰网(公众号:雷峰网)

  • 手机端突破:首次整合 NPU 和 CPU 加速框架, 对手机端多模态大模型进行系系统级加速,速度提升 150 倍;

  • 多语种能力:支持 30 多种语言,除了中英双语,还包括法语、德语、西班牙语等等主流语言,基本覆盖了一带一路的所有国家;

  • ……雷峰网

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

图注:面壁新模型 MiniCPM-Llama3-V2.5 综合能力水平指数

笔者看了表示大为震撼。我们知道面壁在今年 1 月发布的 MiniCPM 是专攻「以小博大」的端侧模型,但没想到短短3个月,从 MiniCPM-V 到 MiniCPM-V 2.0、再到 MiniCPM-Llama3-V2.5,面壁智能的端侧模型不断迭代,在多模态各项能力上竟取得了如此迅速、耀眼的突破!

在综合评测权威平台 OpenCompass 上,面壁 MiniCPM-Llama3-V2.5 以小博大,以 8B 量级综合性能超越多模态巨无霸 GPT-4V 和 Gemini Pro,是目前端侧最强的模型:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

多模态能力是当前大模型最核心的竞争力之一,手机、PC 等智能终端设备因其高频的影像视觉处理需求,对在端侧部署 AI 模型提出了更高的多模态识别与推理能力要求。

具体从 OCR 识别、模型幻觉能力与空间理解能力来看的话,面壁的最新 MiniCPM-Llama3-V2.5 实现了开源模型的性能 SOTA。展开来看:

OCR 识别中,在 OCR 综合能⼒权威榜单 OCRBench 上,面壁「多模态小钢炮」超越了Claude 3V Opus、GeminiPro 等标杆模型,也超过了原先排名第一的上海机器智能实验室 InternVL-Chat-V1.5、最新霸榜第一!

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

排名第二的 InternVL-Chat-V1.5 虽然没有比面壁 MiniCPM-Llama3-V2.5 落后太多,但前者参数是后者的 3 倍。雷峰网

幻觉能力上,MiniCPM-Llama3-V 2.5 在Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为0):

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

空间理解能力上,在专注于评估多模态模型基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

面壁智能 CTO 曾国洋在数月前告诉过 AI 科技评论,他一直认为模型的空间理解能力是实现 AGI 的几个关键组成能力之一。要实现 AGI,现有的长文本长序列架构还不能满足,AGI 还需要一个更好的框架来解决模型的记忆与学习问题,一块是空间记忆,另一块则是经验学习。

从这个思路看,面壁智能 MiniCPM-Llama3-V2.5 的发布,或者不只表明了面壁在端侧模型上的突破,还有更宏大的 AGI 愿景。


2、「识别」、「推理」比翼双飞

关于多模态,过去行业的标杆成果往往以物体精准识别为主,但大规模预训练语言模型诞生后,AI 模型的常识与推理能力愈发成为考量多模态模型的关键维度。

能同时兼顾「识别」与「推理」能力的多模态模型凤毛麟角,此次面壁发布的 8B 多模态小模型成为了其中之一。多个案例展示了面壁多模态小钢炮的识别-推理能力:

1)《三体》相关建筑图识别推理——

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

面壁智能 MiniCPM-Llama3-V 2.5 很快就能推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

但 GPT-4V 则答非所问:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

2)手机图片识别与信息提取、结构化输出——

输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 能准确提取信息,给出无误的「json」格式输出:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

3)高精尖行业学术论文图表分析——

给 MiniCPM-Llama3-V 2.5 一张包含复杂逻辑的流程图:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

MiniCPM-Llama3-V 2.5 不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系 ,还能给出清晰易懂的解释说明:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

4)长图长文本识别与信息推理——

输入一张包含稠密信息的长文长图:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

向 MiniCPM-Llama3-V 2.5 提问,其能直接根据长图信息进行推理问答:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

复杂推理能力对多模态大模型至关关键,它使得模型不仅能理解单一的文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更加准确和深入的分析。MiniCPM-Llama3-V 2.5 进一步升级,可深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,无疑是 AI 大模型中的「小福尔摩斯」。

此外,在视觉一块,面壁 MiniCPM-V 系列模型也实现了识别图像像素的飞升。

据面壁智能透露,有别于传统工艺仅能识别20万像素小图,MiniCPM-V 系列可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比图像识别、甚至「有点变态」的 1:9 极限宽高比。

国产端侧小模型超越 GPT-4V,「多模态」能力飞升


3、多语种能力增强,端侧部署迎来春天

具体在手机、学习机等等端侧的部署应用上,除了识别与推理的能力一体化,面壁 MiniCPM-Llama3-V2.5 的另外两项优势体现在多语种能力与端侧部署加速上。

多语种能力

得益于 VisCPM 的跨语言泛化工艺,在中英双语多模态能力的基础上,MiniCPM-Llama3-V2.5 仅通过少量翻译的多模态信息的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V2.5 丝滑交互。

在对话中,MiniCPM-Llama3-V2.5 表现出了良好的多语言多模态对话性能。与目前国内较为领先的零一万物多模态模型 Yi-VL 34B 为参照,多语言版本 LLaVABench 评测结果显示,MiniCPM-Llama3-V2.5 对话能力更胜一筹:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

需要注意的是,并非所有基于 Llama3 微调的模型都有出色的能力,这中间依然涉及到高门槛的训练技巧。例如,Bunny-Llama-3-8B、XTuner-Llama3-8B-v1.1、LLaVA-NeXT Llama-3-8B 等模型均是借鉴 Llama3,但在综合能力上却远远落后于 MiniCPM-Llama3-V2.5:

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

端侧部署

如前所述,由于终端硬件产物的物理限制,部署到端侧的 AI 模型既要满足硬件的端侧要求,并在成本可控的情况下实现同等参数性能最佳、同等性能参数最小。

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存运营等优化方式,面壁将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。目前,语言模型的图像编码加速也在进行中,更灵敏互动体验即将到来。

总的来说,面壁最新取得的端侧多模态模型成果 MiniCPM-Llama3-V 2.5 是国产端侧之光,加速了国产大模型部署在端侧的节奏,也给端侧 AI 行业提供了多方位的参考。

换言之,在大模型时代,「让终端硬件变得更智能」不再是一个概念性的说法,而是一个正在发生的现实。面壁之后,期待更多国产大模型团队带来更多振奋人心的端侧 AI 创新成果!

MiniCPM-Llama3-V 2.5开源地址:?https://github.com/OpenBMB/MiniCPM-V


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

全谈

更多 >
  • 近29亿元营收,43倍增长!股价直逼茅台的寒武纪业绩高增速能否持续?
    更新:2025-09-09 14:55
  • 河北保定阜平县防汛应急响应升级为Ⅰ级
    更新:2025-09-09 13:57
  • 俄称控制多个定居点 乌称击退俄多次进攻
    更新:2025-09-09 12:58
  • 泰柬两国边境地区再次发生交火
    更新:2025-09-09 12:55

热门文章

  • 宣布重大收购预案 开普云连续两日“20CM”涨停
    宣布重大收购预案 开普云连续两日“20CM”涨停

    宣布重大收购预案 开普云连续两日“20CM”涨停

    每经记者 吴泽鹏 每经编辑 文 多8月25日,复牌的开普云SH688228,股价94.75元,市值63.97亿元)开盘即涨停。前一天晚间,开普云披露了重大资产购买暨关联交易预案,上市公司计划收购深圳市 ...

  • 章子怡再次官宣喜讯,凭借这一点让汪峰高攀不起!
    章子怡再次官宣喜讯,凭借这一点让汪峰高攀不起!

    章子怡再次官宣喜讯,凭借这一点让汪峰高攀不起!

    7月15日,章子怡又官宣新身份,她成为积家的全球代言人。这是积家继易烊千玺后选择的第二位全球代言人,所获得的关注和荣誉可想而知。年少的成长,教会了章子怡拼搏;8年婚姻,让章子怡平和的同时也更加从容;离 ...

  • 土耳其外长:推动俄乌领导人峰会在土举行
    土耳其外长:推动俄乌领导人峰会在土举行

    土耳其外长:推动俄乌领导人峰会在土举行

    当地时间7月25日,土耳其外长费丹表示,土方正协调推进俄乌冲突有关各方在土耳其举行领导人峰会的进程,俄乌双方此前已原则上达成一致。费丹指出,当前的外交进程由土耳其总统亲自主导,各相关机构之间协调良好。 ...

  • 柬埔寨称泰国在边境冲突中使用集束弹药
    柬埔寨称泰国在边境冲突中使用集束弹药

    柬埔寨称泰国在边境冲突中使用集束弹药

    新华社金边7月25日电记者吴长伟)柬埔寨排雷行动和援助受害者管理局25日发表声明说,泰国军队在柬埔寨境内的边境地区使用了国际禁用的集束弹药。声明说,泰军在柬埔寨柏威夏省使用的集束弹药对平民、排雷人员和 ...

  • 一场金融“维权”官司背后
    一场金融“维权”官司背后

    一场金融“维权”官司背后

    当收到法院的判决书,某银行信用卡中心工作人员张磊化名)长舒一口气,把判决书及相关客户资料一起放进“案件处理完结”的台账。自此,这场金融“维权”官司尘埃落定,事实真相也随法院判决结果水落石出。两个不同接 ...

  • 县长调研稿件被指抄袭,纪委启动问责程序
    县长调研稿件被指抄袭,纪委启动问责程序

    县长调研稿件被指抄袭,纪委启动问责程序

    来源:红星新闻近日,有网友发现山西忻州市五台县政府网站上,县长7月9日的调研稿件与五台山景区党工委副书记7月5日调研的稿件雷同。记者发现,全文390余字中有320余字重复,引发网友猜测存在抄袭嫌疑。7 ...

  • 外交部亚洲司负责人就台湾当局外事部门负责人窜访日本向日方提出强烈抗议
    外交部亚洲司负责人就台湾当局外事部门负责人窜访日本向日方提出强烈抗议

    外交部亚洲司负责人就台湾当局外事部门负责人窜访日本向日方提出强烈抗议

    2025年7月25日,外交部亚洲司司长刘劲松紧急约谈日本驻华使馆首席公使横地晃,就台湾当局外事部门负责人林佳龙窜访日本一事进行严正交涉,提出强烈抗议。刘表示,台湾问题是中国核心利益中的核心,事关中日关 ...

  • 世卫组织警示基孔肯雅热疫情风险 呼吁全球加强防控
    世卫组织警示基孔肯雅热疫情风险 呼吁全球加强防控

    世卫组织警示基孔肯雅热疫情风险 呼吁全球加强防控

    世界卫生组织25日警告,基孔肯雅热病毒正在全球多地扩散,已有119个国家报告病例,约550万人面临感染风险。该病毒由蚊虫传播,症状包括高热、剧烈关节疼痛和长期疲乏,约40%的患者可能出现持续数月甚至数 ...

风报爆

更多 >
  • 50%关税,正式生效!印度部分工厂“停工”
    50%关税,正式生效!印度部分工厂“停工”

    当地时间27日,美国正式开始对印度输美产品征收50%关税。印度皮革及钻石加工等行业受到严重冲击,随着美国客户陆续取消订单,不少工厂都面临经营困境。位于印度北方邦的坎普尔是该国有名的皮革加工中心,聚集着 ...

  • “是李小龙主动追求”,时隔52年,她现身回应李小龙之死
    “是李小龙主动追求”,时隔52年,她现身回应李小龙之死

    一连八集的TVB新闻资讯节目《真相猜‧情‧寻》,由擅长“寻人寻宝”的方东昇团队主持,自7月21日开播后,引起了内地网友的热议。节目一开始就抛出了重磅案件——李小龙猝死之谜。方东昇团队拆解这个流传超过半 ...

  • 河南太康一超市门头倒塌,3名儿童被砸倒
    河南太康一超市门头倒塌,3名儿童被砸倒

    来源:央广网央广网周口7月25日消息记者 王勇生 张羲轮)7月25日上午,河南周口太康县高店超市南街店门头突发倒塌,现场目击者称3名儿童被砸。当地应急管理局证实事故存在,详情待官方通报。25日下午,央 ...

  • 楚天运、吴春耕任辽宁省副省长
    楚天运、吴春耕任辽宁省副省长

    据辽宁日报消息,楚天运、吴春耕任辽宁省人民政府副省长。辽宁省人民代表大会常务委员会决定任命名单2025年7月25日辽宁省第十四届人民代表大会常务委员会第十七次会议通过)一、决定任命楚天运为辽宁省人民政 ...

  • 经纪人透露:千百惠将安葬在北京
    经纪人透露:千百惠将安葬在北京

    [经纪人透露:千百惠将安葬在北京]8月19日,中国台湾歌手千百惠因突发病症救治无效离世,享年62岁。21日,封面新闻记者从千百惠经纪人吕芳处获悉,告别式后,千百惠将安葬在北京。至于是否会举行纪念活动, ...

  • 江苏2025退休人员养老金调整方案出台
    江苏2025退休人员养老金调整方案出台

    来源:扬子晚报[江苏2025退休人员养老金调整方案出台]经省政府同意并报国家人社部、财政部批准,日前江苏省2025年退休人员基本养老金调整方案正式出台,将惠及全省1158万退休人员。国家对基本养老金调 ...

  • “00花”不做接班人
    “00花”不做接班人

    这个夏天,00后小花们的名字频繁出现在各大国际影展的片单与红毯上:张子枫成为上海国际电影节主竞赛单元的评委,刷新了最年轻纪录;刘浩存、文淇共同主演的《想飞的女孩》拿下亚洲艺术电影节双影后;李庚希携《狂 ...

  • 斐济群岛地区发生6.6级地震,震源深度300千米
    斐济群岛地区发生6.6级地震,震源深度300千米

    中国地震台网正式测定:07月25日07时37分在斐济群岛地区南纬14.70度,西经175.85度)发生6.6级地震,震源深度300千米。 ...

  • 中方是否承认塔利班的阿富汗临时政府?外交部回应
    中方是否承认塔利班的阿富汗临时政府?外交部回应

    【环球时报-环球网报道 记者 李萌】在8月21日外交部例行记者会上,有记者提问称,上个月,俄罗斯正式承认阿富汗的临时政府,请问目前中方是否承认塔利班的阿富汗临时政府?对此,发言人毛宁表示,中国奉行面向 ...

  • 泰国军方称边境冲突已致柬方24人死亡
    泰国军方称边境冲突已致柬方24人死亡

    当地时间7月25日上午,泰国军方称,在泰柬边境冲突中,柬埔寨方面已有24人死亡。央视新闻)点击进入专题:泰柬边境局势紧张 ...

  • 力压贝佐斯!乔布斯女儿将在英国大婚,新郎是奥运冠军!承办婚礼的亚洲富豪曾是英国留学生
    力压贝佐斯!乔布斯女儿将在英国大婚,新郎是奥运冠军!承办婚礼的亚洲富豪曾是英国留学生

    贝佐斯迎娶桑切斯后,又一场科技世家要办喜事了:就在本周末,苹果公司创始人史蒂夫-乔布斯的小女儿伊芙-乔布斯Eve Jobs)要和未婚夫哈里-查尔斯Harry Charles)在牛津郡举办婚礼了:“大揭 ...

  • 不能认定性骚扰! “武大图书馆性骚扰事件”一审宣判!男生患PTSD,女生精神崩溃
    不能认定性骚扰! “武大图书馆性骚扰事件”一审宣判!男生患PTSD,女生精神崩溃

    封面新闻记者 石伟7月25日,“武汉大学图书馆性骚扰事件”一审宣判。法院审理认为,不能认定男生肖某某针对特定对象实施了性骚扰,驳回女生杨某的指控。2023年10月11日,武汉大学女生杨某发文称,在图书 ...

风闻事今日最佳:我到底有多帅?
专汇宗庆后遗产争夺战愈演愈烈,施幼珍为何始终沉默?
风报爆特朗普:相信鲍威尔已经准备好要降低利率了
风谈点不能认定性骚扰! “武大图书馆性骚扰事件”一审宣判!男生患PTSD,女生精神崩溃
风点事伊朗军队举行导弹演习
风汇点美媒:詹姆斯的法律团队已经向通过AI丑化他的账号发出警告

风点讯

更多 >