{label:top}
首页 >> 点谈> 正文

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

来源:点谈发布时间:2025-09-09 15:22:08
浏览:158

【雷峰网(公众号:雷峰网)消息】上周五,通义全球最大的千问开源大模型社区Hugging Face公布了最新的开源大模型排行榜,阿里云通义千问Qwen-72B表现抢眼,登顶以73.6的首国综合得分在所有预训练模型中排名第一,超越Llama2登顶榜首。产开

 

Hugging Face的模型成都大学内幕攻略开源大模型排行榜(Open LLM Leaderboard)是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型,赶超测试维度涵盖阅读理解、通义逻辑推理、千问数学计算、登顶事实问答等六大测评。首国 

通义千问登顶Hugging Face榜首,产开国产开源大模型赶超Llama2 

通义千问(Qwen-72B)是基于3Ttokens信息训练而成,同时也在10个权威基准测评中夺得开源模型最优成绩,赶超在部分测评中超越闭源的通义GPT-3.5和GPT-4。

 

这是一个激动人心的时刻,从Llama2开源可商用,迄今5个月,国产大模型开源终于有一个能追上Llama2,大模型开源领域终于不再是Llama2独领风骚的时代,国产大模型开源也由此进入新时代。

 

多个单项成绩断层领先其他开源模型

 

从Hugging Face官网公布的开源大模型排行榜(Open LLM Leaderboard)来看,他们是从ARC、HellaSwag、MMLU、TruthfulQA、苏州理工大学内幕评论Winogrande、GSM8K来对当前的开源大模型进行测试评估。

 

从上述截图我们可以看到通义千问Qwen-72B在多个测评中断层领先其他开源模型,其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B,分别得分为77.37、60.19、70.43,而Llama-2-70B的得分分别是69.83、44.94、54.06。

 

Qwen-72B得分最高的三大测评:MMLU考察模型的世界知识和语言能力,综合评测LLM的英文综合能力和知识能力;GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力;TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。

 

而在其他测评ARC、HellaSwag、Winogrande中,通义千问Qwen-72B与Llama-2-70B的差距仅有1、2分之差。

 

ARC考察模型阅读理解,这个能力关系大模型的语言理解、文档问答、工具调用能力;WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力;Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。

 

最终Qwen-72B以73.6的综合得分在所有预训练模型中排名第一,在这之前,该榜单长期被Meta的Llama2占领。同时,除了阿里云开的通义千问、Meta的Llama2,榜单上还出现了幻方量化的deepseek-67B、零一万物的Yi-34B、百川的baichuan2-13B等中国开源大模型。

 

国产开源大模型势头正猛。

 

在评分之外,我们用一道高考数学题来粗略测试下Qwen-72B的表现,发现Qwen-72B解题思路清晰,计算结果准确:

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

同时,还问了它一道外国人看了头大、极具中国语言特色的复杂语义理解题,没想到Qwen-72B居然深刻理解了中国式的职场“拉扯”:

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

在复杂逻辑推理上,表现同样不错:

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

不仅如此,通义千问一经发布,在国外引起了广泛讨论,不少国内外开发者进行了测试和应用,实际使用体验在某些领域还超过了GPT-4:

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

为什么Qwen-72B能有这么出色的性能表现?

 

众所周知,一个优质的模型首先离不开团队强大的研发能力,通义千问团队在国内互联网公司中最早探索大模型,据称是阿里全力投入打造的团队;其次,通义千问背靠阿里云,在AI算力基础设施上拥有充足补给;还很关键的是,通义千问一直在奋力增长自己的开源生态,来自应用场景和开源社区的反馈能帮助研发团队不断优化基础模型。


具体到Qwen-72B模型的训练,通义千问利用多达43T的高质量信息进行训练,折合7Ttokens(目前训练完成3Ttokens,还在持续进行),涵盖近20种语言,覆盖网页、新闻、书籍、数学、代码及各个垂类领域,如金融、法律、医疗等等。


综合利用了dp、tp、pp、sp等方法进行大规模分布式并行训练,引入flashattentionv2等高效算子提升训练速度。借助阿里云机器智能平台PAI的拓扑感知调度机制,有效降低了大规模训练时通信成本,将训练速度提高30%。

 

在训练稳定性方面,模型训练过程中,通义千问团队通过PAI平台AiMaster运营组件监控作业的日志/报错/metric等信息,区分客户错误和系统错误,根据作业类型和容错场景提供运营能力和全链路自动化运维能力,自动剔除故障机器重启任务,使训练过程中人工干预重启频率由日降低到周。


Qwen-72B上场,Llama2走下神坛

 

从今年7月Meta宣布Llama2开源可商用以来,Llama2便一直站在全球大模型开源的神坛上,它更是国产大模型早期蓬勃增长的救星,元象唯思的创始人姚星曾对AI科技评论吐露真言,国内大部分大模型都是基于Llama开源来做的训练,他认为没有 Llama 开源,中国的大模型探索可能还要走很长一段路。

 

但这背后也要国内开发者承担许多“屈辱”,一位大模型公司的CEO曾无奈地告诉AI科技评论,Llama2的中文能力很差。

 

由于此,一些基于Llama2做垂直行业模型的厂商曾告诉我们,他们要用Llama2必须得先跟国内做Llama2中文化的公司合作,不能直接用Llama2去做训练。

 

而且Llama2对中国很不友好,在Llama2的开源协议里强调了English tended,其他地区illegal,意思就是中国拿它来做中文的大模型和应用是不合法的,但国内又必须得用。

 

因为在通义千问Qwen-72B发布之前,我们并没有能跟Llama2比肩的开源大模型,很长一段时间Llama2无与争锋。

 

由于各大模型厂商选择了“小参数用来开源,大参数拿来商业化”的策略,导致国内大模型开源一直停留在14B,所以国产开源大模型看似越来越卷,实则中国大模型市场还没有出现足以对标Llama-2-70B的优质开源模型。

 

但很多开发者曾对AI科技评论表示,虽然大模型开源非常丰富,但他们能真正用起来的不多。在一些领域,例如金融行业、医疗行业,以及一些科研机构,14B其实是远远不够的。

 

直到11月、12月,开源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陆续抛出,国产开源似乎有了新进展,真正跨入了“追赶Llama2”的时代。

 

而Qwen-72B登顶Hugging Face榜首,超过Llama2这一事件,意味着国产大模型开源开始参与全球竞争,同时,Qwen-72B的出现填补了中国大模型开源长期被Llama2所占据的空白领域。

 

个人开发者、中国能源建设集团浙江省电力设计院有限公司系统室专工陶佳,他在想要做大模型应用时遇到的困境应该是国内大多数开发者都会遇到的:国外的模型,如闭源的如OpenAI能力是很强,但是API调用不便,而且我们这种B端客户更喜欢自己上手定制,API能做的事还是太少;开源的比如Llama2,但是中文能力一般。

 

他试了几款,试下来通义千问是最好的。“准确,而且‘手感’很好,没有那些稀奇古怪的 bug”,他说。

 

有鹿机器人公司正在研发第二代具身智能工艺LPLM大模型,LPLM是融合了LLM大语言模型和物理世界大模型。在创始人、CEO陈俊波看来,LLM本身是一个偏慢速的、逻辑推理的、有比较完整的结构性思考的智能系统,而物理世界大模型是一个更偏实时响应、偏直觉的一套思维过程,比方说人类怎么去感知这个世界,怎么去对这个世界做预判,以及怎么去规划我们整个动作思维。LPLM融合了这两个系统,使它们能够很好地配合跟协作,能够从人类的高层的指令理解、到拆解、再到底层对物理世界进行理解和规划。

 

他们把市面上能找到的大模型都做过实验,最后选择了通义千问,创始人、CEO陈俊波认为原因主要有以下几点:

第一,它是目前至少在中文领域能找到的智能性表现最好的开源大模型之一。

第二,它提供了非常方便的工具链,可以在他们自己的信息上快速地去做finetune和各种各样的实验。

第三,它提供了一个特式量化的模型,量化前跟量化后基本上没有掉点,这对我们来说非常有吸引力,因为我们需要把它部署在一个嵌入式的设备上。

 

不仅如此,国外一些网友也对Qwen-72B等国产大模型表达了惊叹:

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2


后记

 

通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio,至此,通义千问共开源了18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态,是业界首个“全尺寸、全模态”开源大模型。

 

阿里云CTO周靖人表示,开源生态对促进中国大模型的工艺进步与应用落地至关关键,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

 

开源、开放成为阿里在大模型领域频频提到的关键词,开源Qwen-72B就是其最好的态度展示。

 

Meta全球事务主管Nick Clegg曾这样评价开源:开源是消除AI相关恐惧的最佳解药,开源有助于Meta追赶竞争对手。

 

正如业内人普遍认同的,未来90%的企业会倾向于基于开源大模型增长,依托于开源生态。

 

如今,有了Qwen-72B的开源,国内大模型也能接上Llama2的步伐,允许各种规模的公司在Qwen-72B上改进这项工艺,并在其上构建应用程序。

 

7月,Llama2开源蓬勃了全球大模型增长,12月,通义千问Qwen-72B开源,使得国产开发者不再“求外”。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

瓜谈

更多 >
  • 黑天鹅!美联储突发!特朗普,终于动手了!
    更新:2025-09-09 14:36
  • 乐视携经典IP矩阵亮相全球授权展上海站,构建影视IP多元化运营能力
    更新:2025-09-09 13:49
  • 断眉中国三城巡演收官!万人催泪合唱被赞“格莱美平替”
    更新:2025-09-09 13:25
  • 《扫毒风暴》定档7月12日 段奕宏秦昊上演五年生死追猎
    更新:2025-09-09 13:12

热门文章

  • 62岁李连杰突发,已交代身后事
    62岁李连杰突发,已交代身后事

    62岁李连杰突发,已交代身后事

    不过大梦一场空封面 I 李连杰抖音作者 I 李东阳报道 I 李东阳朋友圈有关李连杰,近些年舆论场散落的大多是针对其衰老以及“被死亡”的猜测。在那个崇尚英雄的年代,李连杰塑造的武侠世界是几代人共同的宝贵 ...

  • 青春镜头,先锋视角!太仓青年创造营顺利举办
    青春镜头,先锋视角!太仓青年创造营顺利举办

    青春镜头,先锋视角!太仓青年创造营顺利举办

    来源标题:青春镜头,先锋视角!太仓青年创造营顺利举办2025年7月11日至13日,2025太仓青年先锋影像创作营和大师课活动在太仓市成功举办。本次活动作为2025太仓青年先锋影像季的重要活动之一,吸引 ...

  • 《费加罗的婚礼》将在全国近百家影剧院同步直播
    《费加罗的婚礼》将在全国近百家影剧院同步直播

    《费加罗的婚礼》将在全国近百家影剧院同步直播

    来源标题:《费加罗的婚礼》将在全国近百家影剧院同步直播歌剧《费加罗的婚礼》剧照7月15日晚,国家大剧院戏剧场内座无虚席,莫扎特歌剧巅峰之作《费加罗的婚礼》在奥地利男中音马库斯·维尔巴、意 ...

  • 《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情
    《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情

    《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情

    来源标题:《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情 2025年7月12日,由知名主持人项亮月担任制片人及主演的文旅综艺节目《亮月带你玩·爱上吉林》走进吉林省延边朝鲜族 ...

  • 他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果
    他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果

    他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果

    2025 年 WAIC 展会在上海盛大开幕,这场汇聚全球顶尖科技力量的盛会,成为展示人工智能与机器人领域前沿成果的重要舞台。他山科技携多款新品精彩亮相,包含TS-F 指尖触觉传感器、TS-E 机械手触 ...

  • 海南付林音乐基金会在博鳌举办乐海螺音·爱在大海之上公益唱享会活动
    海南付林音乐基金会在博鳌举办乐海螺音·爱在大海之上公益唱享会活动

    海南付林音乐基金会在博鳌举办乐海螺音·爱在大海之上公益唱享会活动

    来源标题:海南付林音乐基金会在博鳌举办乐海螺音·爱在大海之上公益唱享会活动每年一度的中国航海日来临之际,作为2025中国航海日活动主会场的海南博鳌成为一片真正的蓝色海洋,各项活动精彩纷呈。7月9日晚, ...

  • 《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情
    《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情

    《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情

    来源标题:《亮月带你玩·爱上吉林》走进延吉 项亮月携明星们打卡边境风情 2025年7月12日,由知名主持人项亮月担任制片人及主演的文旅综艺节目《亮月带你玩·爱上吉林》走进吉林省延边朝鲜族 ...

  • 《最美中轴线》第四季特别直播:彭楚粤探秘天乐园,体验解锁戏曲文化魅力
    《最美中轴线》第四季特别直播:彭楚粤探秘天乐园,体验解锁戏曲文化魅力

    《最美中轴线》第四季特别直播:彭楚粤探秘天乐园,体验解锁戏曲文化魅力

    来源标题:《最美中轴线》第四季特别直播:彭楚粤探秘天乐园,体验解锁戏曲文化魅力北京时间 APP《最美中轴线》特别直播企划,彭楚粤做客直播间,带领观众探秘有着近200年历史的天乐园。这座始建于清朝乾隆年 ...

风台集

更多 >
新瓜见鬼了!虞书欣红毯艳压迪丽热巴?看见生图我笑了
全爆《亮月带你玩·爱上吉林》项亮月带明星来体验延吉民俗风情
新话LINE FRIENDS携手G
风趣新《扫毒风暴》定档7月12日 段奕宏秦昊上演五年生死追猎
风闻事近东救济工程处:加沙营养不良儿童数量急剧增加
乐事《扫毒风暴》今晚开播 段奕宏秦昊硬核对峙

短汇

更多 >