{label:top}
首页 >> 速报> 正文

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

来源:速报发布时间:2025-09-09 14:41:32
浏览:1

元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,发布将国产开源提升至国际领先水平。中国最该模型总参数255B,模型激活参数36B,落地达到100B模型性能的登顶抖音剧情号后台流出合集「跨级」跃升,同时训练时间减少30%,港台推理性能提升100%,元象源大应用使每token成本大幅下降。发布

元象「高性能全家桶」系列全部开源,中国最无条件免费商用,模型让海量中小企业、落地研究者和开发者能按需选择。登顶

元象发布中国最大MoE开源大模型 落地应用登顶港台榜 MoE(Mixture of Experts)是业界最前沿的混合专家模型架构 ,将多个细分领域的元象源大应用专家模型组合成一个超级模型,打破了传统扩展定律(Scaling Law)的局限,可在扩大模型规模时,不显著增加训练和推理的计算成本,保持模型性能最大化。张某恋情曝光热搜截图出于这个原因,行业前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、马斯克旗下xAI公司的Grok等大模型都使用了 MoE。

在多个权威评测中,元象MoE效果大幅超越多个同类模型,包括国内千亿MoE模型 Skywork-MoE、传统MoE霸主Mixtral-8x22B 以及3140亿参数的MoE开源模型Grok-1-A86B等。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜 

免费下载大模型

Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B

魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

Github:https://github.com/xverse-ai/XVERSE-MoE-A36B

官网:chat.xverse.cn

 

落地应用好且省 登顶港台娱乐应用榜


元象此次开源,不仅填补国内空白,也在商业应用上更进一步。

元象基于MoE模型自主研发的AI角色扮演与互动网文APP Saylo,通过逼真的AI角色扮演和有趣的开放剧情,火遍港台,下载量在中国台湾和香港娱乐榜分别位列第一和第三。

MoE训练范式具有「更高性能、更低成本」优势,元象在通用预训练基础上,使用海量剧本信息「继续预训练」(Continue Pre-training),并与传统SFT(监督微调)或RLHF(基于人类反馈的强化学习)不同,采用了大规模语料知识注入,让模型既保持了强大的通用语言理解能力,又大幅提升「剧本」这一特定应用领域的表现。  元象发布中国最大MoE开源大模型 落地应用登顶港台榜


高性能「开源标杆」

 

元象是国内领先的AI与3D公司,秉持「通用机器智能 AGI」信仰,持续打造「高性能开源全家桶」,不仅填补国产开源空白,更将其推向了国际领先水平。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

2023年11月,此前国内大部分开源参数多在7B到13B,而行业共识是模型达到50到60B参数门槛,大模型才能“智能涌现”,生态亟需“大”模型时,元象率先开源了XVERSE-65B,是当时中国最大参数开源。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

2024年1月,元象又开源全球最长上下文窗口大模型,支持输入25万汉字,还附手把手训练教程,让大模型应用一举进入“长文本时代”。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

此次国内最大参数MoE开源,又是给生态贡献了一个助推低成本AI应用利器。

 

引领文娱应用

 

借助在AI和3D领域的客户积累,元象也迅速将大模型推向商用。

2023年11月,元象成为全国最早一批、广东省前五获得《生成式机器智能支持运营暂行办法》国家备案的大模型,具备向全社会开放的产物能力。 

而在更早的10月,元象与腾讯音乐联合推出lyraXVERSE加速大模型,并借助该工艺全面升级音乐助手“AI小琴”的问答、聊天与创作能力,让她情商与智商双高,为客户提供个性化、更深入、陪伴感十足的音乐互动体验。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

元象大模型陆续与QQ音乐、虎牙实况、全民K歌、腾讯云等深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的客户体验。  元象发布中国最大MoE开源大模型 落地应用登顶港台榜


MoE工艺自研与创新

 

MoE是目前业界最前沿的模型框架,由于工艺较新,国内开源模型或学术研究尚未普及。元象自研MoE的高效训练和推理框架,并持续推动工艺创新。

2024年4月推出的XVERSE-MoE-A4.2B中,元象推动MoE专家架构革新。与传统MoE(如Mixtral 8x7B)将每个专家大小等同于标准FFN不同,元象采用更细粒度的专家设计,每个专家大小仅为标准FFN的四分之一,提高了模型灵活性与性能;还将专家分为共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类。共享专家在计算过程中始终保持激活状态,而非共享专家则根据需要选择性激活。这种设计有利于将通用知识压缩至共享专家参数中,减少非共享专家参数间的知识冗余。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

此次推出XVERSE-MoE-A36B,继续在MoE效率和效果方面进行工艺创新。

(1)效率方面

MoE架构与4D拓扑设计:MoE架构的关键特性是由多个专家组成。由于专家之间需要大量的信息交换,通信负担极重。为了解决这个问题,我们采用了4D拓扑架构,平衡了通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径,提高了整体计算效率。

专家路由与预丢弃策略:MoE的另一个特点是“专家路由机制”,即需要对不同的输入进行分配,并丢弃一些超出专家计算容量的冗余信息。为此团队设计一套预丢弃策略,减少不必要的计算和传输。同时在计算流程中实现了高效的算子融合,进一步提升模型的训练性能。

通信与计算重叠:由于MoE架构的专家之间需要大量通信,会作用整体计算效率。为此团队设计了“多维度的通信与计算重叠”机制,即在进行参数通信的同时,最大比例并行地执行计算任务,从而减少通信等待时间。

(2)效果方面

专家权重:MoE 中的专家总数为 N ,每个 token 会选择 topK 个专家参与后续的计算,由于专家容量的限制,每个 token 实际选择到的专家数为 M,M<=K<N。被选择到的专家计算完之后,会通过加权平均的方式汇总得到每个 token 的计算结果。这里专家的权重如何设置是一个问题,我们通过对比实验的方式来进行选择。根据对比实验的效果,我们选择实验2的设置进行正式实验。

实验1:权重在 topM 范围内归一化

实验2:权重在 topK 范围内归一化

实验3:权重在 topN 范围内归一化

实验4:权重都为 1 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

对比实验结果

举例说明,假设N=8,K=4,M=3(2号专家上token被丢弃),不同专家权重的计算方式所得的权重如下图: 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

信息动态切换:元象以往开源的模型,往往在训练前就锁定了训练信息集,并在整个训练过程中保持不变。这种做法虽然简单,但会受制于初始信息的质量和覆盖面。此次MoE模型的训练借鉴了"课程学习"理念,在训练过程中实现了动态信息切换,在不同阶段多次引入新处理的高质量信息,并动态调整信息采样比例。

这让模型不再被初始语料集所限制,而是能够持续学习新引入的高质量信息,提升了语料覆盖面和泛化能力。同时通过调整采样比例,也有助于平衡不同信息源对模型性能的作用。 

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

不同信息版本的效果曲线图

学习率调度策略(LR Scheduler):在训练过程中动态切换信息集,虽有助于持续引入新知识,但也给模型带来了新的适应挑战。为了确保模型能快速且充分地学习新进信息,团队对学习率调度器进行了优化调整,在每次信息切换时会根据模型收敛状态,相应调整学习率。实验表明,这一策略有效提升了模型在信息切换后的学习速度和整体训练效果。

下图是整个训练过程中 MMLU、HumanEval 两个评测信息集的效果曲线图。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

训练过程中MMLU、HumanEval的性能曲线持续拔高

通过设计与优化,元象MoE模型与其Dense模型XVERSE-65B-2相比,训练时间减少30%、推理性能提升100%,模型效果更佳。雷峰网(公众号:雷峰网)雷峰网




雷峰网原创文章,未经授权禁止转载。详情见转载须知。

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

热集

更多 >
  • WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI
    更新:2025-09-09 13:11
  • 从中生代到新生代,演技信任值是如何建立的?
    更新:2025-09-09 12:56
  • 新住持印乐法师已到少林寺,少林寺历代方丈名单一览
    更新:2025-09-09 12:37
  • 泰国军方:泰柬边境冲突地区全面停火
    更新:2025-09-09 11:55

热门文章

  • DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了
    DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

    DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了

    过去一周,世界模型赛道的热度被推到新高。DeepMind 刚发布的 Genie 3 展示了交互式、实时、长序列生成的能力,让“虚拟世界随时可玩、可控”从概念变成了可见的产品形态。不过,Genie 3 ...

  • 网约车,不“香”了?
    网约车,不“香”了?

    网约车,不“香”了?

    来源:上观新闻数据显示,2024年,上海网约车日均载客157.9万车次。然而在社交媒体上,“臭车”,却成了乘客对网约车吐槽的主流话题之一。有人说,35度的高温,连续两天打到臭车,好像钻了两天不同司机的 ...

  • 脱口秀八年,从“世界”到“小我”
    脱口秀八年,从“世界”到“小我”

    脱口秀八年,从“世界”到“小我”

    作者|谢明宏编辑|李春晖自从桃厂和鹅厂的脱口秀“换乘恋爱”以后,对于硬糖君就比较麻烦了。一是,看不完根本看不完。这边一期分个上中下,那边也不遑多让甚至一期有一)二)三)四)。即便只看纯享版,也得每家花 ...

  • 李连杰曝少林寺黑幕?王俊凯遭导演背刺?赵晴倒贴杨洋炒CP?梓渝彻底洗白了?惯三女星被威胁要钱?
    李连杰曝少林寺黑幕?王俊凯遭导演背刺?赵晴倒贴杨洋炒CP?梓渝彻底洗白了?惯三女星被威胁要钱?

    李连杰曝少林寺黑幕?王俊凯遭导演背刺?赵晴倒贴杨洋炒CP?梓渝彻底洗白了?惯三女星被威胁要钱?

    1:李连杰曝少林寺黑幕?最近少林寺的事儿应该不少瓜友在热搜上看到了吧,释永信因涉嫌刑事犯罪,挪用侵占项目资金寺院资产被调查,后又查出他长期与多名女性保持不正当关系并育有私生子,现戒牒已被注销他的情况河 ...

  • 腾讯Q2财报:营销服务358亿!再创新高
    腾讯Q2财报:营销服务358亿!再创新高

    腾讯Q2财报:营销服务358亿!再创新高

    8月13日,腾讯发布二季度财报。AI技术及应用正加速转化为业绩动能。当季实现营收1845亿元同比增长15%。在资本开支同比三位数增长的高投入背景下,腾讯当季仍实现毛利22%与经营利润Non-IFRS) ...

  • 梅德韦杰夫:美方对俄“最后通牒”增加了战争威胁
    梅德韦杰夫:美方对俄“最后通牒”增加了战争威胁

    梅德韦杰夫:美方对俄“最后通牒”增加了战争威胁

    △梅德韦杰夫资料图)当地时间7月28日,俄罗斯联邦保障会议副主席梅德韦杰夫就美国总统特朗普涉俄言论在社交媒体发布文章称,特朗普在和俄罗斯玩“最后通牒”的游戏,不管是50天还是10天,每一次新的“最后通 ...

  • 育儿补贴线上线下同时办理 各地政府还能叠加奖励
    育儿补贴线上线下同时办理 各地政府还能叠加奖励

    育儿补贴线上线下同时办理 各地政府还能叠加奖励

    中共中央办公厅、国务院办公厅今天28日)发布《育儿补贴制度实施方案》,将在全国范围内实施育儿补贴制度。方案提出,从2025年1月1日起,无论一孩、二孩、三孩,每年均可领取3600元补贴,直至年满3周岁 ...

  • 日首份太空防御指南渲染“中俄威胁”
    日首份太空防御指南渲染“中俄威胁”

    日首份太空防御指南渲染“中俄威胁”

    #日本将制定太空防御指南#【日首份太空防御指南渲染“中俄威胁”】#日本声称中俄正开发杀手卫星# 综合日本共同社和《读卖新闻》29日报道,日本防卫省28日宣布制定首份旨在加强太空防卫能力的《太空防御指南 ...

专站

更多 >
  • 国内首例!女子出差时被领导性侵,认定工伤后获赔113万,她说:遭遇侵害不耻辱,沉默才会让施暴者更猖狂
    国内首例!女子出差时被领导性侵,认定工伤后获赔113万,她说:遭遇侵害不耻辱,沉默才会让施暴者更猖狂

    “监控里,我从他房间出来的时候没有穿鞋。”崔丽丽常常会做噩梦,梦里她在一片无尽的黑暗里寻找自己的鞋子,却怎么也找不到。哪怕那天的记忆因为醉酒而模糊,深入骨髓的恐惧和伤害也在潜意识里隐隐作痛。2023年 ...

  • 印乐法师任少林寺住持
    印乐法师任少林寺住持

    少林寺管理处7月29日发布情况通报:依据《汉传佛教寺院住持任职办法》,经少林寺两序大众民主评议赞成,并履行有关程序,礼请印乐法师任少林寺住持。来源:“少林寺官方网站”微信公号另据新京报报道:少林寺管理 ...

  • 以军炮击和空袭加沙多地致92人死亡
    以军炮击和空袭加沙多地致92人死亡

    △加沙地带资料图)当地时间28日,以色列继续对加沙地带加沙城、努赛赖特难民营、汗尤尼斯和拉法等多地发动炮击和空袭。据巴勒斯坦《圣城报》消息,自当天黎明以来,以色列在加沙各地发动的袭击已造成至少92名巴 ...

  • 外逃28年 “百名红通人员”梁锦文回国投案
    外逃28年 “百名红通人员”梁锦文回国投案

    近日,在中央反腐败协调小组国际追逃追赃工作办公室统筹协调下,经广东省、珠海市纪检监察、公安机关不懈努力,“百名红通人员”梁锦文回国投案。这是开展“天网行动”以来第64名归案的“百名红通人员”。梁锦文, ...

  • 特朗普重申:美国将不再批准光伏或风电项目
    特朗普重申:美国将不再批准光伏或风电项目

    来源:财联社财联社8月21日讯编辑 牛占林)当地时间周三,美国总统特朗普表示,他的政府将不会批准光伏或风力发电项目,即便在那些电力供应不足的地区。特朗普当天在Truth Social平台发文称:“我们 ...

  • 分手8年后,她官宣怀孕,这结局大快人心!
    分手8年后,她官宣怀孕,这结局大快人心!

    来源:黎兜兜来源:电影工厂ID:vipidy前两天,很久没有消息的阚清子突然晒出了一张孕妇写真照。画面中,胖了三十多斤的她还是如之前那么美丽, 抱着鲜花当着孕肚的她,脸圆圆的珠圆玉润好像花仙子。看起来 ...

  • 河北承德兴隆县部分村庄发生山洪泥石流
    河北承德兴隆县部分村庄发生山洪泥石流

    记者从应急管理部门获悉,受强降雨影响,河北承德兴隆县部分村庄发生山洪泥石流,具体情况有关部门正在核实中。王昆鹏/@央广网点击进入专题:全国多地遭暴雨侵袭 ...

  • 提醒!请北京市民非必要不前往风险区
    提醒!请北京市民非必要不前往风险区

    [提醒!#请北京市民非必要不前往风险区#]#北京极端强降雨造成重大灾害##北京因灾死亡30人#目前,北京全市累计转移80332人,转移人员数量最多的三个区为密云、怀柔和房山。密云区19个乡镇转移169 ...

  • 流行歌手“霉霉”官宣订婚,特朗普回应
    流行歌手“霉霉”官宣订婚,特朗普回应

    据美国福克斯新闻网、美国广播公司消息,当地时间8月26日,美国知名歌手泰勒·斯威夫特官宣与橄榄球运动员特拉维斯·凯尔西Travis Kelce)订婚。两人当天在社交媒体平台联合发帖称:“你的英语老师和 ...

  • 再度撇清 特朗普称自己拒绝了爱泼斯坦邀请
    再度撇清 特朗普称自己拒绝了爱泼斯坦邀请

    △特朗普资料图)央视记者当地时间7月28日获悉,美国总统特朗普当日表示,他“从未有幸”访问杰弗里·爱泼斯坦的岛屿。特朗普说,他拒绝了爱泼斯坦提出的邀请,并称这是明智之举。此前,特朗普多次撇清与爱泼斯坦 ...

  • 中美经贸会谈在瑞典斯德哥尔摩举行
    中美经贸会谈在瑞典斯德哥尔摩举行

    当地时间7月28日至29日,中美经贸中方牵头人、国务院副总理何立峰与美方牵头人、美国财政部长贝森特及贸易代表格里尔在瑞典斯德哥尔摩举行中美经贸会谈。双方就中美经贸关系、宏观经济政策等双方共同关心的经贸 ...

  • 泰国军方:泰柬边境所有地区已经停火
    泰国军方:泰柬边境所有地区已经停火

    泰国军方7月29日在社交媒体上说,泰国和柬埔寨边境所有地区已经停火。新华社)点击进入专题:泰柬边境局势紧张 ...

风事点国内首例!女子出差时被领导性侵,认定工伤后获赔113万,她说:遭遇侵害不耻辱,沉默才会让施暴者更猖狂
热报周渝民夫妇的瓜,有点炸
网红吃瓜海西传媒蔡俊涛:用闭环体系托起艺人成长
爆点刚刚挂牌成立的新央企,领导班子亮相
风风独特朗普和莫迪,现在都很愤怒
风点独日本气象厅预计:海啸将持续一天

风站趣

更多 >