通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

来源:点谈发布时间：2025-09-09 15:22:08

【雷峰网(公众号：雷峰网)消息】上周五，通义全球最大的千问开源大模型社区Hugging Face公布了最新的开源大模型排行榜，阿里云通义千问Qwen-72B表现抢眼，登顶以73.6的首国综合得分在所有预训练模型中排名第一，超越Llama2登顶榜首。产开

Hugging Face的模型成都大学内幕攻略开源大模型排行榜（Open LLM Leaderboard）是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型，赶超测试维度涵盖阅读理解、通义逻辑推理、千问数学计算、登顶事实问答等六大测评。首国

通义千问登顶Hugging Face榜首，产开国产开源大模型赶超Llama2

通义千问（Qwen-72B）是基于3Ttokens信息训练而成，同时也在10个权威基准测评中夺得开源模型最优成绩，赶超在部分测评中超越闭源的通义GPT-3.5和GPT-4。

这是一个激动人心的时刻，从Llama2开源可商用，迄今5个月，国产大模型开源终于有一个能追上Llama2，大模型开源领域终于不再是Llama2独领风骚的时代，国产大模型开源也由此进入新时代。

多个单项成绩断层领先其他开源模型

从Hugging Face官网公布的开源大模型排行榜（Open LLM Leaderboard）来看，他们是从ARC、HellaSwag、MMLU、TruthfulQA、苏州理工大学内幕评论Winogrande、GSM8K来对当前的开源大模型进行测试评估。

从上述截图我们可以看到通义千问Qwen-72B在多个测评中断层领先其他开源模型，其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B，分别得分为77.37、60.19、70.43，而Llama-2-70B的得分分别是69.83、44.94、54.06。

Qwen-72B得分最高的三大测评：MMLU考察模型的世界知识和语言能力，综合评测LLM的英文综合能力和知识能力；GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力；TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。

而在其他测评ARC、HellaSwag、Winogrande中，通义千问Qwen-72B与Llama-2-70B的差距仅有1、2分之差。

ARC考察模型阅读理解，这个能力关系大模型的语言理解、文档问答、工具调用能力；WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力；Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。

最终Qwen-72B以73.6的综合得分在所有预训练模型中排名第一，在这之前，该榜单长期被Meta的Llama2占领。同时，除了阿里云开的通义千问、Meta的Llama2，榜单上还出现了幻方量化的deepseek-67B、零一万物的Yi-34B、百川的baichuan2-13B等中国开源大模型。

国产开源大模型势头正猛。

在评分之外，我们用一道高考数学题来粗略测试下Qwen-72B的表现，发现Qwen-72B解题思路清晰，计算结果准确:

通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

同时，还问了它一道外国人看了头大、极具中国语言特色的复杂语义理解题，没想到Qwen-72B居然深刻理解了中国式的职场“拉扯”：

通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

在复杂逻辑推理上，表现同样不错：

通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

不仅如此，通义千问一经发布，在国外引起了广泛讨论，不少国内外开发者进行了测试和应用，实际使用体验在某些领域还超过了GPT-4：

通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

为什么Qwen-72B能有这么出色的性能表现？

众所周知，一个优质的模型首先离不开团队强大的研发能力，通义千问团队在国内互联网公司中最早探索大模型，据称是阿里全力投入打造的团队；其次，通义千问背靠阿里云，在AI算力基础设施上拥有充足补给；还很关键的是，通义千问一直在奋力增长自己的开源生态，来自应用场景和开源社区的反馈能帮助研发团队不断优化基础模型。

具体到Qwen-72B模型的训练，通义千问利用多达43T的高质量信息进行训练，折合7Ttokens（目前训练完成3Ttokens，还在持续进行），涵盖近20种语言，覆盖网页、新闻、书籍、数学、代码及各个垂类领域，如金融、法律、医疗等等。

综合利用了dp、tp、pp、sp等方法进行大规模分布式并行训练，引入flashattentionv2等高效算子提升训练速度。借助阿里云机器智能平台PAI的拓扑感知调度机制，有效降低了大规模训练时通信成本，将训练速度提高30%。

在训练稳定性方面，模型训练过程中，通义千问团队通过PAI平台AiMaster运营组件监控作业的日志/报错/metric等信息，区分客户错误和系统错误，根据作业类型和容错场景提供运营能力和全链路自动化运维能力，自动剔除故障机器重启任务，使训练过程中人工干预重启频率由日降低到周。

Qwen-72B上场，Llama2走下神坛

从今年7月Meta宣布Llama2开源可商用以来，Llama2便一直站在全球大模型开源的神坛上，它更是国产大模型早期蓬勃增长的救星，元象唯思的创始人姚星曾对AI科技评论吐露真言，国内大部分大模型都是基于Llama开源来做的训练，他认为没有 Llama 开源，中国的大模型探索可能还要走很长一段路。

但这背后也要国内开发者承担许多“屈辱”，一位大模型公司的CEO曾无奈地告诉AI科技评论，Llama2的中文能力很差。

由于此，一些基于Llama2做垂直行业模型的厂商曾告诉我们，他们要用Llama2必须得先跟国内做Llama2中文化的公司合作，不能直接用Llama2去做训练。

而且Llama2对中国很不友好，在Llama2的开源协议里强调了English tended，其他地区illegal，意思就是中国拿它来做中文的大模型和应用是不合法的，但国内又必须得用。

因为在通义千问Qwen-72B发布之前，我们并没有能跟Llama2比肩的开源大模型，很长一段时间Llama2无与争锋。

由于各大模型厂商选择了“小参数用来开源，大参数拿来商业化”的策略，导致国内大模型开源一直停留在14B，所以国产开源大模型看似越来越卷，实则中国大模型市场还没有出现足以对标Llama-2-70B的优质开源模型。

但很多开发者曾对AI科技评论表示，虽然大模型开源非常丰富，但他们能真正用起来的不多。在一些领域，例如金融行业、医疗行业，以及一些科研机构，14B其实是远远不够的。

直到11月、12月，开源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陆续抛出，国产开源似乎有了新进展，真正跨入了“追赶Llama2”的时代。

而Qwen-72B登顶Hugging Face榜首，超过Llama2这一事件，意味着国产大模型开源开始参与全球竞争，同时，Qwen-72B的出现填补了中国大模型开源长期被Llama2所占据的空白领域。

个人开发者、中国能源建设集团浙江省电力设计院有限公司系统室专工陶佳，他在想要做大模型应用时遇到的困境应该是国内大多数开发者都会遇到的：国外的模型，如闭源的如OpenAI能力是很强，但是API调用不便，而且我们这种B端客户更喜欢自己上手定制，API能做的事还是太少；开源的比如Llama2，但是中文能力一般。

他试了几款，试下来通义千问是最好的。“准确，而且‘手感’很好，没有那些稀奇古怪的 bug”，他说。

有鹿机器人公司正在研发第二代具身智能工艺LPLM大模型，LPLM是融合了LLM大语言模型和物理世界大模型。在创始人、CEO陈俊波看来，LLM本身是一个偏慢速的、逻辑推理的、有比较完整的结构性思考的智能系统，而物理世界大模型是一个更偏实时响应、偏直觉的一套思维过程，比方说人类怎么去感知这个世界，怎么去对这个世界做预判，以及怎么去规划我们整个动作思维。LPLM融合了这两个系统，使它们能够很好地配合跟协作，能够从人类的高层的指令理解、到拆解、再到底层对物理世界进行理解和规划。

他们把市面上能找到的大模型都做过实验，最后选择了通义千问，创始人、CEO陈俊波认为原因主要有以下几点：

第一，它是目前至少在中文领域能找到的智能性表现最好的开源大模型之一。

第二，它提供了非常方便的工具链，可以在他们自己的信息上快速地去做finetune和各种各样的实验。

第三，它提供了一个特式量化的模型，量化前跟量化后基本上没有掉点，这对我们来说非常有吸引力，因为我们需要把它部署在一个嵌入式的设备上。

不仅如此，国外一些网友也对Qwen-72B等国产大模型表达了惊叹：

通义千问登顶Hugging Face榜首，国产开源大模型赶超Llama2

后记

通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio，至此，通义千问共开源了18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态，是业界首个“全尺寸、全模态”开源大模型。

阿里云CTO周靖人表示，开源生态对促进中国大模型的工艺进步与应用落地至关关键，通义千问将持续投入开源，希望成为“AI时代最开放的大模型”，与伙伴们共同促进大模型生态建设。

开源、开放成为阿里在大模型领域频频提到的关键词，开源Qwen-72B就是其最好的态度展示。

Meta全球事务主管Nick Clegg曾这样评价开源：开源是消除AI相关恐惧的最佳解药，开源有助于Meta追赶竞争对手。

正如业内人普遍认同的，未来90%的企业会倾向于基于开源大模型增长，依托于开源生态。

如今，有了Qwen-72B的开源，国内大模型也能接上Llama2的步伐，允许各种规模的公司在Qwen-72B上改进这项工艺，并在其上构建应用程序。

7月，Llama2开源蓬勃了全球大模型增长，12月，通义千问Qwen-72B开源，使得国产开发者不再“求外”。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

返回资讯首页 >>

瓜谈

更多 >

黑天鹅！美联储突发！特朗普，终于动手了！
更新：2025-09-09 14:36
乐视携经典IP矩阵亮相全球授权展上海站，构建影视IP多元化运营能力
更新：2025-09-09 13:49
断眉中国三城巡演收官！万人催泪合唱被赞“格莱美平替”
更新：2025-09-09 13:25
《扫毒风暴》定档7月12日段奕宏秦昊上演五年生死追猎
更新：2025-09-09 13:12

风台集

更多 >

尼日利亚一船只倾覆 20余人失踪
△船只倾覆事故发生后，相关人员开展搜救行动8月17日，尼日利亚索科托州一艘载有50多人的客船在航行途中倾覆。当日的搜救行动救起25人，此后2天的搜救行动无果，搜救行动19日结束。当地时间20日，当地紧 ...
文博题材纪录片如何“年轻”起来
来源标题：文博题材纪录片如何“年轻”起来“眼睛瞪得像铜铃，但闪不出闪电般的精明，耳朵竖得像天线，可不是为了听到声音。它不是黑猫警长，它是商代的表情包之王”—&mda ...
CINITY绚丽解码大唐传奇电影《长安的荔枝》云路演尝鲜接“荔”互动观影“鲜”动四城
来源标题：CINITY绚丽解码大唐传奇电影《长安的荔枝》云路演尝鲜接“荔”互动观影“鲜”动四城恰逢盛暑，长安“荔”夏。7月12日，电影《长安的荔枝》“重走荔枝路& ...
《英雄联盟：双城之战》第二季荣获艾美奖双项提名！限定纪念展北京站开幕
来源标题：《英雄联盟：双城之战》第二季荣获艾美奖双项提名！限定纪念展北京站开幕2025年第77届创意艺术艾美奖提名已于近期正式揭晓，《英雄联盟：双城之战》第二季动画剧集荣获艾美奖“最佳动画 ...
中国最懂女人的男人：牵手林志玲，年入30亿
文 | 万棱镜，作者｜沐风，编辑｜小峰他，被称为“中国最懂女人的男人” 。这个男人不是导演，也不是明星，却总是出现在女星的身边。10年前，他牵起林志玲的手，把她带进了中国县城的内衣店里；如今，徐冬冬、 ...
实景重现烽火岁月，熊儿寨乡红谷·冀东基地打造红色教育新地标
来源标题：实景重现烽火岁月，熊儿寨乡红谷·冀东基地打造红色教育新地标为庆祝党的百年华诞与抗战胜利 80 周年，熊儿寨乡将保护和利用红色资源作为重要使命，严格遵循习“赓续红色血脉&rdquo ...
《带你趣户外2025》圆满收官！巴厘岛、香港双季，2.8亿点赞见证新玩法
来源标题：《带你趣户外2025》圆满收官！巴厘岛、香港双季，2.8亿点赞见证新玩法随着《带你趣香港》第二期节目的播出，由快手重点打造的户外互动竞技直播团综《带你趣户外2025》也正式落下帷幕。从巴厘岛 ...
断眉中国三城巡演收官！万人催泪合唱被赞“格莱美平替”
来源标题：断眉中国三城巡演收官！万人催泪合唱被赞“格莱美平替”2015年，美国唱作才子Charlie Puth查理·普斯昵称“断眉”）凭借一曲《See You A ...
近29亿元营收，43倍增长！股价直逼茅台的寒武纪业绩高增速能否持续？
2025年上半年，寒武纪营收28.81亿元，同比增长43倍，实现净利润10.38亿元，成功扭亏为盈，现金流也显著改善。公司归因于人工智能算力需求增长及与前沿领域企业的技术合作。同时，寒武纪计划募资不超 ...
《聊斋：兰若寺》能复制追光神话吗
来源标题：《聊斋：兰若寺》能复制追光神话吗追光动画“新文化”系列的第二部作品《聊斋：兰若寺》借千年古刹兰若寺的一树一井为时空纽带，呈现瑰丽斑斓的“聊斋世界&rdqu ...
项亮月带明星来延吉市打卡录制《亮月带你玩·爱上吉林》
来源标题：项亮月带明星来延吉市打卡录制《亮月带你玩·爱上吉林》2025年7月12日，由知名主持人项亮月担任制片人及主演的文旅综艺节目《亮月带你玩·爱上吉林》走进吉林省延边朝鲜族自治州首府 ...
户外+奢华=时尚新风口！欧思帝娜携手陈宇打造户外运动皮草新风尚
来源标题：户外+奢华=时尚新风口！欧思帝娜携手陈宇打造户外运动皮草新风尚2025中国时尚大会流行趋势日，由海宁中国皮革城联合中国服装设计师协会重磅打造。本次趋势发布以“海纳万象&rdquo ...