{label:top}
首页 >> 趣站> 正文

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

来源:趣站发布时间:2025-09-09 17:36:51
浏览:4742

昨天一早,榜作弊引Meta 了放出自家用了 20 万显卡集群训练出的热议 Llama 4 系列模型,其中包括 Llama 4 Scout、卡集Llama 4 Maverick 和 Llama 4 Behemoth。榜作弊引消息一出,热议直接引爆了大模型圈。卡集天津学院偷拍视频推荐

Meta 还特意强调,榜作弊引这些模型都经过了大量未标注的热议文本、图像和影片信息的卡集训练,视觉理解能力已经到了 Next level,榜作弊引有种在大模型领域一骑绝尘的热议既视感。

Llama 4 刷榜作弊引热议,卡集20 万显卡集群就做出了个这?榜作弊引

Meta GenAI 负责人 Ahmad Al-Dahle 也表示:“我们的开放系统将产出最好的小型、中型和即将出现的热议前沿大模型。”并附上了一张 Llama 4 的卡集性能对比测试图。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

紧接着,在大模型竞技场中 Llama 4 Maverick 的上海医科大学爆料排名排名直接跃升到第二名,成为了第 4 个突破 1400 分的大模型。在开放模型排行榜上更是超越了 DeepSeek,直接上桌坐“主座”。

“首次采用 MoE 架构”、“千万 token 上下文”...一时间 Llama 4 就被贴满了各种 Title。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

但在一片赞美和吹捧声中,很快就有心细的网友发现了不对劲。这位网友用头段时间在 ? 上很火的让模型直出几何程序的方式来测试 Llama 4,但最终的结果是在画六角形内含一个受重力作用球的集合图像时,Llama 4 试了 8 次也错了 8 次,而反观 DeepSeek R1 和 Gemini 2.5 pro 则是一次正确。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

也有网友表示对 Llama 4 的表现感到非常失望。按照以往惯例,更新了版本号的模型在性能上应该有很大的突破,而 Meta 憋了这么久才舍得放出来的 Llama 4 非但没有进步,在测试中的表现还不如一些现有的大模型。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

还有网友非常贴心的给出 Llama 4 系列的模型能力找了个参照物:“Llama 4 maverick 这个 402B 的大模型,大概跟 Qwen QwQ 32B 写代码水平一致,而 Llama 4 scout 则近似于 Grok2 或者 文心 4.5。”

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

Llama 4:超级刷榜选手

在官方给出的信息中,Llama 4 的能力妥妥碾压了一众大模型,但在网友们的实际测试中,Llama 4 却显得很拉跨,越测越觉得离谱的网友们不由得怀疑,扎克伯格是不是给自家模型偷偷刷榜了?

经过网友们的多方证实,最后发现,嘿!还真是刷的。

其实如果认真看 Ahmad Al-Dahle 发布的 Llama 性能对比测试图最下面一行的小字,你就会发现上面写着“Llama 4 Maverick 针对对话进行了优化”,而 Meta 其实早就给自己留了个“图片仅供参考,一切以实物为准”的心眼。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除了破解 Meta 官方的字谜游戏外,网友们也带着 Llama 4 进出于各大测试榜单中。

他们先是把 Llama 4 拉到了著名的 code 测试榜单 Aider ployglot 中,最终的得分比 qwen-32B还低。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

在另一个代码评测榜单中,Llama 4 的成绩也只能排在中间位置。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除此之外,网友们发现在 EQBench 测评基准的长文章写作榜上,Llama 4 系列也是直接垫底。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

而即使是最基础的翻译任务,网友们也表示 Llama 4 的表现也是比 3.3 的 70b 还要差得多,甚至还不如 Gemma 3 的 27B。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

混乱的 Meta

正在网友们风风火火测评 Llama 4 的真实成绩时,一则发布在海外的求职平台一亩三分地上的内容更是直接给Llama 4 的作弊传闻填了一把柴。

文中提到 Llama 4 的训练存在严重问题,并且内部模型的表现仍然未能达到开源 SOTA,甚至与之相差甚远,而  Llama 4 的高分也确实是领导层为了能够在各项指标上交差所做出的“努力”。而这个则消息的爆料者,很可能来自 Meta 公司内部。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

除此之外也有其他的 AI 从业者在线吐槽,表示“我们都被耍了,Llama 4 不过是一个早早被设计好的实验版本。”

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

还有前 Meta 员工站出来指出公司在产物研发方面存在巨大漏洞,并表示 Llama 系列模型的信息泄露问题其实从 Llama 1 就已经存在了。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

而在 Llama 4 发布的几天前,Meta AI 研究副总裁 Joelle Pineau 就在 Linkedin 发文称自己已经申请将在 5 月份离职,不由得让人们将这件事与 Llama 4 作弊刷榜的事情联系到一起。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

不少人疑惑,为什么一向崇尚“大力出奇迹”的 Meta 这次的翻车力度这么大,明明有钱、有卡、有信息,但模型创新能力依旧不足,还要靠作弊刷榜来找存在感?

一个坊间流传的观点是,Meta内部研究人员压力过大,因为他们需要做出成果,给公司一个好的交代,因此会求稳,更加偏向于更能做出成果的事情,而真正关键的内容,比如基础设施的迭代、新运算规则的实验,这些需要大量时间去做出成果的内容,却往往没有人愿意去做。

这也导致了 Meta 很难在大模型市场上继续做出向 DeepSeek R1 这样轰动整个 AI 领域的东西,而还没有发布的超大杯 2T 参数模型也应证着这个观点:Meta 其实还没有更好的想法。

反观以研究为导向的 DeepSeek,其实一直在探索新的架构。DeepSeek 团队先是提出了强化学习里的神奇运算规则 GRPO,紧接着在 DeepSeek v2 时提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上,后来发布的全新注意力架构 NSA 更是实现了超高速长上下文训练与推理。

回到 Llama 4  这边,根据AI科技评论的了解,对大模型架构有研究的专业人士认为,Llama 4 非常缺乏工艺创新,比如说,在后训练阶段还在死守DPO。而此前的一系列理论和实验都表明 DPO 的泛化能力,“比PPO差得远”。PPO在实际使用中需要调的细节很多,不易上手。在DeepSeek提出GRPO以后,越来越多的研究者开始使用GRPO及其改版。 Meta 还继续坚持用着 DPO 而不选择创新,这么来看 Llama 4 做成如此也属于意料之中。

常人没法用,专家用不着

而最让人失望的是,Llama 4 系列的模型都无法放入家用电脑,并且 Llama 4 除了一直在宣传的 10M 上下窗口外,貌似已经没有任何优势,而这一点对于大多数人来说其实并不是必需的内容。

除此之外,GPT 4o, Gemini 2.5 Pro 这些拥有生图能力的模型型号已经正式推出,而 Grok3、Gemini 2 Flash 等多模态模型也已经开始广泛开放,这也意味着更多的人没有再用 Llama 4 的理由,或者说,Llama 4 本身没有太强的市场竞争力。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

反观这次 Llama 4 的翻车事件,不难看出其实 Llama 4 系列模型很可能是 Meta 在追赶大模型潮流的战略布局中的一枚关键棋子,但却因为太过于“急功近利”而选择作弊,导致直接失去了社区的支持,进而失去了自身的竞争优势。

并且 Llama 2、Llama 3 的时代已经过去,选择 Llama 作为基座的开源模型只会越来越少,雷峰网(公众号:雷峰网)认为对于 Meta 来说,与其选择作弊刷榜博眼球,不如想想如何创新,如何提高社区适用度,能不能追上最前端的工艺暂且放一边,最关键的是先把口碑先赚回来。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

风谈集

更多 >
  • 超500台军参加美方演习?国台办回应
    更新:2025-09-09 17:21
  • 尼日利亚一船只倾覆 20余人失踪
    更新:2025-09-09 16:29
  • 中方是否承认塔利班的阿富汗临时政府?外交部回应
    更新:2025-09-09 15:47
  • 杨幂宋佳,虞书欣,赵露思,于正林心如,辱骂粉丝的前选秀男,锤爷回复爆料贴
    更新:2025-09-09 15:09

热门文章

  • 关于俄乌领导人会晤地点 泽连斯基给出三个选项
    关于俄乌领导人会晤地点 泽连斯基给出三个选项

    关于俄乌领导人会晤地点 泽连斯基给出三个选项

    总台记者当地时间21日获悉,乌克兰总统泽连斯基在20日与记者的见面会上表示,关于乌克兰与俄罗斯举行会晤的可能地点,乌方认为会晤地点应选择中立欧洲国家,如瑞士或奥地利,也不排除土耳其。但莫斯科不可接受, ...

  • 专访宗馥莉:我不会因为风波改变方向
    专访宗馥莉:我不会因为风波改变方向

    专访宗馥莉:我不会因为风波改变方向

    来源:财经杂志编辑|杨立赟2025年7月13日,娃哈哈创始人家族的继承之战,被推到聚光灯下。被外界视为宗庆后“独女”的宗馥莉,被三名自称“同父异母的弟妹”在香港和杭州的法院起诉,涉及21亿美元巨额离岸 ...

  • 一场金融“维权”官司背后
    一场金融“维权”官司背后

    一场金融“维权”官司背后

    当收到法院的判决书,某银行信用卡中心工作人员张磊化名)长舒一口气,把判决书及相关客户资料一起放进“案件处理完结”的台账。自此,这场金融“维权”官司尘埃落定,事实真相也随法院判决结果水落石出。两个不同接 ...

  • AI 颠覆的第一个职业是程序员?丨GAIR Live
    AI 颠覆的第一个职业是程序员?丨GAIR Live

    AI 颠覆的第一个职业是程序员?丨GAIR Live

    当 AI 大模型飞速进化,最先被卷入洪流的,不是写作画画或运营,而是程序员。过去几年,从 GitHub Copilot 开始,到 Cursor、Codeium、Claude Code,再到各类 Age ...

  • 62岁李连杰突发,已交代身后事
    62岁李连杰突发,已交代身后事

    62岁李连杰突发,已交代身后事

    不过大梦一场空封面 I 李连杰抖音作者 I 李东阳报道 I 李东阳朋友圈有关李连杰,近些年舆论场散落的大多是针对其衰老以及“被死亡”的猜测。在那个崇尚英雄的年代,李连杰塑造的武侠世界是几代人共同的宝贵 ...

  • 今日最佳:我到底有多帅?
    今日最佳:我到底有多帅?

    今日最佳:我到底有多帅?

    来源微博:@迷惑行为大赏有一说一,长得太精致了。 ...

  • 巴基斯坦季风暴雨已致750人死亡
    巴基斯坦季风暴雨已致750人死亡

    巴基斯坦季风暴雨已致750人死亡

    巴基斯坦国家灾害运营局20日说,过去24小时,强季风降雨引发的灾害造成该国至少43人死亡、11人受伤。自6月26日进入雨季以来,季风暴雨已在巴全国范围内造成750人死亡。据巴国家灾害运营局最新发布的统 ...

  • SpaceX“星舰”成功溅落,第十次试飞圆满结束
    SpaceX“星舰”成功溅落,第十次试飞圆满结束

    SpaceX“星舰”成功溅落,第十次试飞圆满结束

    美国太空探索技术公司SpaceX)新一代重型运载火箭“星舰”美国中部时间8月26日18时30分北京时间26日7时30分)从得克萨斯州发射升空,实施第十次试飞。此次任务重点目标包括让飞船部署模拟卫星、在 ...

风闻秀

更多 >
  • 电影中的抗战——百团大战破囚笼
    电影中的抗战——百团大战破囚笼

    打一个大仗,打出中国人的勇气!1940年8月到1941年1月,八路军在华北敌后发动大规模进攻和反“扫荡”战役,沉重打击了日军“囚笼政策”。这场战役共有105个团,约20万人参战,因此被称为“百团大战” ...

  • 伊朗军队举行导弹演习
    伊朗军队举行导弹演习

    当地时间8月21日上午,伊朗军方宣布,为期两天的导弹演习正式开始。据悉,此次演习将使用伊朗军队最新研发的防御武器。CCTV国际时讯) ...

  • 中方是否承认塔利班的阿富汗临时政府?外交部回应
    中方是否承认塔利班的阿富汗临时政府?外交部回应

    【环球时报-环球网报道 记者 李萌】在8月21日外交部例行记者会上,有记者提问称,上个月,俄罗斯正式承认阿富汗的临时政府,请问目前中方是否承认塔利班的阿富汗临时政府?对此,发言人毛宁表示,中国奉行面向 ...

  • 中方是否承认塔利班的阿富汗临时政府?外交部回应
    中方是否承认塔利班的阿富汗临时政府?外交部回应

    【环球时报-环球网报道 记者 李萌】在8月21日外交部例行记者会上,有记者提问称,上个月,俄罗斯正式承认阿富汗的临时政府,请问目前中方是否承认塔利班的阿富汗临时政府?对此,发言人毛宁表示,中国奉行面向 ...

  • 阻挠推搡昆明台记者采访,涉事人被行政拘留10日
    阻挠推搡昆明台记者采访,涉事人被行政拘留10日

    针对网传“昆明广播电视台记者采访被打受伤”一事,昆明市新闻工作者协会高度重视,第一时间了解核查相关情况,现通报如下。8月18日下午,昆明市民吉先生通过昆明市融媒体中心“8099999”微信公众号后台留 ...

  • 特朗普和莫迪,现在都很愤怒
    特朗普和莫迪,现在都很愤怒

    来源:牛弹琴曾经感情有多么热烈,现在愤怒就有多么强烈。特朗普和莫迪,以前两人见面,都肯定要紧紧拥抱的,如今两人不仅不见面,连电话都不接,特朗普更罕见点名道姓侮辱莫迪。不是我们不明白,是这个世界变化实在 ...

  • 腾讯Robotics X具身智能开放平台Tairos发布,融合左脑、右脑、小脑
    腾讯Robotics X具身智能开放平台Tairos发布,融合左脑、右脑、小脑

    7月27日,2025世界人工智能大会腾讯论坛期间,腾讯 Robotics X 实验室与福田实验室联合发布具身智能平台Tairos钛螺丝)。雷峰网(公众号:雷峰网)AI科技评论获悉,其由模型算法和云服务 ...

  • 独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
    独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队

    AI 科技评论独家获悉,原通义实验室应用视觉团队负责人薄列峰已加入腾讯混元大模型团队,直接向腾讯副总裁兼混元项目负责人蒋杰汇报。据悉,薄列峰在今年 4 月 30 日从阿里离任,彼时曾有传闻称他已加盟某 ...

  • 词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆
    词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆

    8月20日深夜,著名歌手千百惠因病去世的消息传遍网络,引发公众追念。当晚,著名词作家杨湘粤向南都N视频记者回忆道,今年6月下旬,千百惠还来到深圳,与周冰倩同台演唱了《走过咖啡屋》。“她是一个乐观、豁达 ...

  • 经纪人透露:千百惠将安葬在北京
    经纪人透露:千百惠将安葬在北京

    [经纪人透露:千百惠将安葬在北京]8月19日,中国台湾歌手千百惠因突发病症救治无效离世,享年62岁。21日,封面新闻记者从千百惠经纪人吕芳处获悉,告别式后,千百惠将安葬在北京。至于是否会举行纪念活动, ...

  • 以方决定暂时不对哈马斯同意的停火方案做回应
    以方决定暂时不对哈马斯同意的停火方案做回应

    当地时间20日,总台记者获悉,以色列战略事务部长德尔默前一日在巴黎与卡塔尔高级代表团会面时表示,以色列只对达成全面停火协议感兴趣,即哈马斯释放所有以方被扣押人员,并同意放弃加沙领导权。△加沙地带此外, ...

  • SpaceX“星舰”成功溅落,第十次试飞圆满结束
    SpaceX“星舰”成功溅落,第十次试飞圆满结束

    美国太空探索技术公司SpaceX)新一代重型运载火箭“星舰”美国中部时间8月26日18时30分北京时间26日7时30分)从得克萨斯州发射升空,实施第十次试飞。此次任务重点目标包括让飞船部署模拟卫星、在 ...

事站词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆
闻讯他山科技多款新品亮相 WAIC 展会,展现机器人触觉技术新成果
乐台超500台军参加美方演习?国台办回应
专榜出身“企鹅”的“T4大神”,带领小鹅通闯关港交所
风风全出身“企鹅”的“T4大神”,带领小鹅通闯关港交所
风集事主播直播死亡轰动法国!死前10天被同事各种爆虐,却被当成节目效果...

风闻乐

更多 >