{label:top}
首页 >> 风集集> 正文

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

来源:风集集发布时间:2025-09-09 11:11:02
浏览:4

[雷峰网(公众号:雷峰网)]两周前,面壁面壁发布领先的新模型早开源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B,于L越发布时间更早,比肩综合性能相当,理超尤其是面壁杭州大学绯闻地址拥有更强的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」。新模型早激活参数仅 39B,于L越支持 64k 上下文,比肩相比 Llama3 速度更快、理超可处理更长文本。面壁

面壁新模型:早于Llama3、新模型早比肩 Llama3、于L越推理超越 Llama3!比肩

图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

图注:面壁Eurux-8x22B 模型综合性能比肩 LlaMa3-70B,超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。

 

Eurux-8x22B 由 Mistral-8x22B对齐而来。强劲战斗力,来自面壁 Ultra 对齐工艺上新 UltraInterat 大规模、高质量对齐信息集。此前,面壁 Ultra 对齐系列信息集已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

 

Eurux-8x22B模型+对齐信息集,全家桶开源:

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

开源大模型「理科状元」

开源大模型「理科状元」

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。

Eurux-8x22B 在代码和数学等复杂推理的综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」。特别在 LeetCode (180道LeetCode真题)和 TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

图注:Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA。


开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?


在近期 LeetCode 周赛,这一检验人类程序员编程能力的真实竞技场上:Eurux-8x22B 在 Python 编程方面取得综合排名超越了80% 的人类参赛选手的优秀成绩,成功解决四道运算规则题中的三道,可以初步通过互联网大厂的程序员编程面试。


下面是本次周赛中Eurux-8x22B对一道中等难度的运算规则题的真实解答:

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!


除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。


例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

(需要说明的是,Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!)

面壁 Ultra 对齐工艺,大模型上分神器!

本次大模型「理科状元」 Eurux-8x22B 的优异表现,得益于来自面壁 Ultra 对齐工艺的大规模、高质量对齐信息集UltraInteract上新。

好信息,才有好模型。此前,面壁 Ultra 对齐工艺已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

 ➤  UltraInterat对齐信息集地址:

? https://github.com/OpenBMB/Eurus

UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐信息集,包含了覆盖数学、代码和逻辑推理问题的12个开源信息集的86K条指令和220K偏好对,共有五十万(条)左右信息。相比而言,LLaMA 3-70B模型则是使用了千万量级的对齐信息,这从侧面证明了 UltraInteract 信息集的优质性——信息质量胜过信息数量。UltraInteract 信息集开源后在社区受到了广泛好评。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

从领先的端侧模型「小钢炮」MiniCPM,到开源模型推理新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」?答案是,大模型是一项系统工程,而面壁作为国内极少数兼具大模型运算规则与 infra 能力的团队,拥有自研的全流程高效生产线:面壁 Ultra 对齐工艺、Infra 工艺、独家「模型沙盒」实验和现代化信息工厂,从信息、训练到调校工艺环环相扣,一条优秀的大模型Scaling Law增长曲线由此而生。

Infra工艺方面,面壁构建了全流程优化加速工具套件平台ModelForce,可以实现 10 倍推理加速,90% 成本降低。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

运算规则方面,通过上千次以上的「模型沙盒」实验,探索更加科学的训模方法。以小见大,寻找高效模型训练配置,实现模型能力快速形成。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

➤  Eurux-8x22B模型GitHub地址:

https://github.com/OpenBMB/Eurus

 ➤  Eurux-8x22B模型HuggingFace地址:https://huggingface.co/openbmb/Eurux-8x22b-nc

 ➤  UltraInterat对齐信息集地址:

https://github.com/OpenBMB/Eurus





雷峰网版权文章,未经授权禁止转载。详情见转载须知。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

趣速

更多 >
  • 杨幂宋佳,虞书欣,赵露思,于正林心如,辱骂粉丝的前选秀男,锤爷回复爆料贴
    更新:2025-09-09 10:50
  • 科技赋能文物“活”起来!《沿着中原大遗址走廊寻国宝》大型直播6月14日启幕
    更新:2025-09-09 10:05
  • 林依轮西华30年婚姻长跑:从《爱情鸟》到《想把我唱给你听》的深情告白
    更新:2025-09-09 09:51
  • 摇滚编年史火爆出圈,引爆全国乐迷热情
    更新:2025-09-09 08:32

热门文章

  • 尼日利亚一船只倾覆 20余人失踪
    尼日利亚一船只倾覆 20余人失踪

    尼日利亚一船只倾覆 20余人失踪

    △船只倾覆事故发生后,相关人员开展搜救行动8月17日,尼日利亚索科托州一艘载有50多人的客船在航行途中倾覆。当日的搜救行动救起25人,此后2天的搜救行动无果,搜救行动19日结束。当地时间20日,当地紧 ...

  • 听花岛《家里家外》获海峡视听季评委会特别奖,用乡音连接两岸情感
    听花岛《家里家外》获海峡视听季评委会特别奖,用乡音连接两岸情感

    听花岛《家里家外》获海峡视听季评委会特别奖,用乡音连接两岸情感

    来源标题:听花岛《家里家外》获海峡视听季评委会特别奖,用乡音连接两岸情感“一部短剧串起两岸的共同记忆,《家里家外》做到了。”6月14日,由两岸视听业界共同举办的第十七届海峡论坛 ...

  • 上影节精彩尚未结束 暑期档预热已经开始
    上影节精彩尚未结束 暑期档预热已经开始

    上影节精彩尚未结束 暑期档预热已经开始

    来源标题:上影节精彩尚未结束 暑期档预热已经开始在势如破竹的春节档之后,2025年暑期档看什么?2025年下半年等什么?前天举行的上海国际电影节品牌活动“华语巨制巡礼”上,《东 ...

  • 电视剧《千里江山图》官宣阵容
    电视剧《千里江山图》官宣阵容

    电视剧《千里江山图》官宣阵容

    来源标题:电视剧《千里江山图》官宣阵容第30届上海电视节首日,“上海出品”电视剧《千里江山图》宣布阵容,将由汪俊执导,张若昀领衔主演,陈道明监制,王倦、金海曙担任编剧,腾讯视频 ...

  • 他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果
    他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果

    他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果

    2025 年 WAIC 展会在上海盛大开幕,这场汇聚全球顶尖科技力量的盛会,成为展示人工智能与机器人领域前沿成果的重要舞台。他山科技携多款新品精彩亮相,包含TS-F 指尖触觉传感器、TS-E 机械手触 ...

  • 上影节精彩尚未结束 暑期档预热已经开始
    上影节精彩尚未结束 暑期档预热已经开始

    上影节精彩尚未结束 暑期档预热已经开始

    来源标题:上影节精彩尚未结束 暑期档预热已经开始在势如破竹的春节档之后,2025年暑期档看什么?2025年下半年等什么?前天举行的上海国际电影节品牌活动“华语巨制巡礼”上,《东 ...

  • 黄梦莹,从《三生三世十里桃花》素锦到《桃花映江山》郘后的反派美学
    黄梦莹,从《三生三世十里桃花》素锦到《桃花映江山》郘后的反派美学

    黄梦莹,从《三生三世十里桃花》素锦到《桃花映江山》郘后的反派美学

    来源标题:黄梦莹,从《三生三世十里桃花》素锦到《桃花映江山》郘后的反派美学近日,古装权谋大剧《桃花映江山》已正式首播,黄梦莹饰演的郘后一出场,便气场全开、锋芒毕露。她以冷艳狠厉的眼神与极具压迫感的表演 ...

  • 歌曲《我的家我的国》 构建对传统主旋律单向度超越
    歌曲《我的家我的国》 构建对传统主旋律单向度超越

    歌曲《我的家我的国》 构建对传统主旋律单向度超越

    来源标题:歌曲《我的家我的国》 构建对传统主旋律单向度超越歌曲《我的家我的国》以著名音乐人李杰深沉而恢弘的旋律、歌手李月辉饱满而沧桑的美声,在宏大叙事的主旋律音乐序列中,完成了一次独特的“ ...

事台

更多 >
  • 马斯克因“百万美元抽奖”再面临诉讼
    马斯克因“百万美元抽奖”再面临诉讼

    当地时间8月20日,美国一名联邦法官要求马斯克必须对一起涉及“百万美元抽奖”的集体诉讼应诉。亚利桑那州选民杰奎琳·麦卡弗蒂作为代表提起集体诉讼,指控马斯克及其创建的“美国政治行动委员会”在2024年大 ...

  • 长剧善于塑造人物,微短剧重在提供情绪——长短剧如何相互“取长补短”
    长剧善于塑造人物,微短剧重在提供情绪——长短剧如何相互“取长补短”

    来源标题:长剧善于塑造人物,微短剧重在提供情绪——长短剧如何相互“取长补短”长篇剧集《小巷人家》剧照资料图片微短剧《家里家外》资料图片近一两年来,所有内容行业从业者都在面临一个无法回避的问题,那就是选 ...

  • 北京文化产业商会第三届会员大会圆满举行,开启文化产业新征程
    北京文化产业商会第三届会员大会圆满举行,开启文化产业新征程

    来源标题:北京文化产业商会第三届会员大会圆满举行,开启文化产业新征程2025年6月20日,北京,这座历史与现代交融的文化名城,迎来了一场文化产业领域的盛会——北京文化产业商会第 ...

  • 电影+潮玩:IP赋能拉动非票收入
    电影+潮玩:IP赋能拉动非票收入

    来源标题:电影+潮玩:IP赋能拉动非票收入ATM潮玩艺术馆里各种IP衍生品。电影与潮玩产品之间相互赋能、相互融合的步伐越来越快。继宣布与52TOYS在IP玩具开发方面深度合作之后,万达电影在第27届上 ...

  • 网友热议:9月3日,放假吗?
    网友热议:9月3日,放假吗?

    随着中国人民抗日战争暨世界反法西斯战争胜利80周年纪念日临近,纪念活动的整体安排备受关注,其中的阅兵环节更是关注焦点。8月20日上午,国新办举行新闻发布会,介绍了九三阅兵准备工作有关情况。相关负责人介 ...

  • 两戏热播,演员梅凌甄以“情”动人
    两戏热播,演员梅凌甄以“情”动人

    来源标题:两戏热播,演员梅凌甄以“情”动人 近日,由中央电视台、中国电视剧制作中心、企鹅影视、留白影视出品,曹盾、高翔执导,雷佳音、岳云鹏领衔主演的电视剧《长安的荔枝》正在热播。剧版《长安的荔枝》根据 ...

  • 2025太仓青年先锋影像季启动征片
    2025太仓青年先锋影像季启动征片

    来源标题: 2025太仓青年先锋影像季启动征片6月6日,2025太仓青年先锋影像季TaiCang Youth Vanguard Images Season)正式开启。本活动由太仓市委宣传部指导,太仓青 ...

  • 舞台剧《两京十五日》将全国巡演
    舞台剧《两京十五日》将全国巡演

    来源标题:舞台剧《两京十五日》将全国巡演改编自马伯庸同名小说的舞台剧《两京十五日》将于6月29日开启2025年全国巡演。该剧通过具有写意风格的中式舞台语汇,描绘一幅明代大运河沿岸的历史风情画。剧照由剧 ...

  • 伊朗军队举行导弹演习
    伊朗军队举行导弹演习

    当地时间8月21日上午,伊朗军方宣布,为期两天的导弹演习正式开始。据悉,此次演习将使用伊朗军队最新研发的防御武器。CCTV国际时讯) ...

  • 法国娇兰品牌挚友余承恩亲临南京德基 携御廷兰花金致焕采系列,科技淬炼驻龄能量,点燃年轻光蕴
    法国娇兰品牌挚友余承恩亲临南京德基 携御廷兰花金致焕采系列,科技淬炼驻龄能量,点燃年轻光蕴

    来源标题: 法国娇兰品牌挚友余承恩亲临南京德基 携御廷兰花金致焕采系列,科技淬炼驻龄能量,点燃年轻光蕴(2025年6月16日,南京)源于皇室,创立于1828年的世界顶级奢侈化妆品牌法国娇兰,吸引了世界 ...

  • 《小娘惹之翡翠山》黄暄婷邓伟徳亮相上海电视节 娘惹文化新风潮邂逅东方之都
    《小娘惹之翡翠山》黄暄婷邓伟徳亮相上海电视节 娘惹文化新风潮邂逅东方之都

    来源标题:《小娘惹之翡翠山》黄暄婷邓伟徳亮相上海电视节 娘惹文化新风潮邂逅东方之都6月24日,在2025上海国际视听内容合作交流论坛上,新加坡人气演员黄暄婷与邓伟徳为宣传新加坡大戏《小娘惹之翡翠山》亮 ...

  • 《当哒当:邪视》预售正式开启!内地大银幕首次上映火热预售中
    《当哒当:邪视》预售正式开启!内地大银幕首次上映火热预售中

    来源标题:《当哒当:邪视》预售正式开启!内地大银幕首次上映火热预售中日本新生代超人气动画IP《当哒当》的首部电影《当哒当:邪视》今日正式开启预售,并同时发布了预售海报和预告,电影将于6月29日登陆内地 ...

深料尊湃侵犯华为海思芯片技术商业秘密案一审判决生效
风点站科技赋能文物“活”起来!《沿着中原大遗址走廊寻国宝》大型直播6月14日启幕
速榜第二季潮文化Power“街头旋律”文艺点亮计划升级回归
风集追《欢喜一家人·人生小事》收官:家是“聚宝盆”,盛满平凡烟火里的无价真金
快趣商务部:将于9月出台扩大服务消费的若干政策措施
看谈刀郎演唱会倒数2天!华熙LIVE·鱼洞打造狂欢盛宴,更有10万好礼空降现场!

风闻集

更多 >