{label:top}
首页 >> 独事> 正文

别再声讨零一万物了

来源:独事发布时间:2025-09-09 08:23:24
浏览:21

最近两天,别再由原阿里工艺副总裁、声讨深度学习框架 Caffe 发明者贾扬清一则朋友圈引发的零万关于“国内某大厂新模型套壳 LLaMA 架构”的问题在中国机器智能圈与科技媒体中产生了热烈讨论。

由于贾扬清在国内 AI 圈的别再号召力极大,且由于贾扬清的声讨朋友圈内容指示称套壳模型的做法是“把代码里面的名字从 LLaMA 改成了他们的名字,然后换了几个变量名”、零万上海学院偷拍价格在 Hugging Face 被海外工程师指出,别再碰巧几天前零一万物上传到 Hugging Face 的声讨大模型 Yi-34B 被指出其除了有两个张量被重新命名后、完全使用了 LLaMA 的零万框架,于是别再:

在黑盒子般的逻辑链推导下,成立不到一年的声讨零一万物成为了贾扬清在朋友圈声讨的“国内大厂”,Yi-34B 也成为了群情炮轰之下的零万炮灰。

事实上,别再贾扬清明确指出套壳模型来自“国内大厂”,声讨但由于没有指名道姓,零万这则朋友圈所引发的猜忌后果甚至可能超出了贾扬清本人的意料。如一位网友所言,大家开始猜忌是阿里、是百度、还是腾讯、华为……进而引发一系列对国内科技创新的唱衰。

而讨论开始后,零一万物官方很快在 Hugging Face 与媒体平台中作出回应,郑州高中曝光排名表示团队确实沿用了 LLaMA 与 GPT 基础架构,并会将代码更新,重新命名,以符合大模型开源社区的要求。

尽管如此,风波未有平息的苗头。但在笔者看来,该事件其实值得另一维度的更深讨论,即:1)Transformer 时代,大模型的增长还需要多少种新的架构?2)LLaMA 掀起的开源狂潮背后,比训练架构更关键的大模型训练过程为什么少人问津?

甚至在 Hugging Face 社区提出原帖讨论的海外工程师都自己说:“LLaMA架构没毛病,模型训练才是重中之重。”

There's nothing wrong with llama architecture.

The training is everything.

分析这波热议,相比“目标”的创新,人们似乎更强调“手段”的重复造轮子。


1、架构之于大模型

大模型狂飙 300 天后,机器智能圈开始出现一种声音:反对“重复造轮子”。

尽管行业一致认为,大模型驱动的 AI 新时代只需要少数的通用大模型,但在实践中,模型的数量仍然层出不穷,相形之下,万众期待的“AI 应用”迟迟没有爆发,机器智能时代的“Killer App”更是连轮廓都没有。

今天早上,深圳西丽湖论坛,百度 CEO 李彦宏与硅谷机器智能研究院创始院长皮埃罗·斯加鲁菲(Piero Scaruffi)同时用一组信息指出了这个问题:

  • 2023 年 6 月,中国的大模型数量是 79 个,而 2023 年 10 月就增长到了238 个,相当于中国的大模型数量在 4 个月内增长了 3 倍;

  • 截至 2023 年 10 月,仅 Hugging Face 一个平台上就有接近 3 万个文本生成模型(29776)供开发者下载使用。

这两个信息反映了全球的机器智能创新都还处于对模型热情的阶段,距离关注模型以外的产物、应用乃至商用落地模式等还有很长的路要走。也是在这一思维范式的惯性下,“套壳 LLaMA架构”成为模型架构创新一派不遗余力抨击的对象。

但对大模型增长来说,与模型数量暴增雷同的一个问题是:我们是否需要更多的模型架构?

如果我们需要更多的架构,具体数量是多少?在 GPT 大模型的“虹吸效应”下,新的大模型架构能产生多大的作用力?

在 Transformer 一统天下的大模型时代,如青年 AI 学者符尧指出,Transformer 已经固定了大模型的架构,LLaMA 架构沿用 Chinchilla、Chinchilla 沿用 Gopher、Gopher 沿用 GPT-3(GPT-3 又是基于 Transformer),每个模型的架构都是只改一两行、然后将模型重新命名。

基于全球现有的文本生成模型数量已经过万、国内的大模型数量也超过了 200,除零一万物外,如果市场上已发布的每一个大模型都进行了架构上的创新,那么目前国内市场里现存的基于 Transformer 的大模型架构已经超过了 200 个——但没有人会相信这个数字。

事实上,早在今年 5 月,圈内就流传出了不少“某家大模型套壳 XXX”的声音。

在 LLaMA 1 还未开放开源可商用授权时,对于 LLaMA 的“借鉴”就已有不少实践。由于 LLaMA 1 规定其权重不能被用于商业用途,当时圈内最早的做法是:先将 LLaMA 的权重下载下来,然后在此基础上增补。该方法最终得到的结果是:“套壳模型”最终跑出来的权重与 LLaMA 完全不同,但在部分任务上的效果不相上下。

在零一万物之前,不少国内知名的大模型公司都曾经“中过枪”,只是因为没有大 IP 的造势、才没有引起如此广泛的讨论。而这类“套壳”说法背后的依据,也主要是“沿用 LLaMA 架构”。

但如果仅因为沿用 LLaMA 架构而批评国内的模型没有创新,是有失偏颇的。笔者向多位机器智能工艺人员求证后核实:相比架构的创新,训练过程也同样关键,甚至更为关键。

换言之,大家一致认同,沿用 LLaMA 架构不是问题,训练也是区分各家大模型实力的关键因素。

我们可以将 LLaMA 架构理解为一个“地基”:雷峰网

如果将大模型比喻成一座房子,那么沿用 LlaMA 架构就是照板打造这座房子的“地基”,但地基以上的房子形状如何设计(即模型的能力),则要看训练过程中的信息与策略等方法论差异。沿用 LLaMA 架构的各家大模型也通常在“房子形状”上各显神通,如训练方法、信息配比。

大模型的训练实际上是一个不断在抽象的过程。Transformer 之所以被称为“基础(fundational)创新”,没有 Transformer 就没有大模型,是因为 Transformer 已经做了第一层抽象,然后 OpenAI、谷歌、百度、智谱等国内外第一批大模型探路者,包括 Meta 的 LLaMA 在 Transformer 的基础上继续做抽象。相当于,第二层抽象也仍然是在打地基、而非设计房屋形状。

因此,2023 年之后入场的大模型公司,沿用 LLaMA 的架构重新训练,是一种更符合创业公司实际、性价比更高的做法。当然,在这个过程中,沿用 LLaMA 架构、却没有声明的行为确实“不厚道”,这是需要纠正的。雷峰网(公众号:雷峰网)

但相比“重复造轮子”,更多创业者与工艺人员认同的方法是,在沿用 LLaMA 等先进架构的基础上,于训练过程中完全使用自家的信息重新训练一遍。尤其对于国内的大模型来说,模型的能力要更加符合社会主义价值观,各家都对信息无比重视。

在零一万物的最新公告中,零一万物也坦承其采用了往通用化逐步收拢的 GPT/LLaMA 的基本架构,但也着重强调:

1)在训练 Yi-34B 与 Yi-6B 的过程中,零一万物的团队也是根据实际的训练框架重新实现了训练代码,用自建的信息管线构建了高质量配比的训练信息集(从3PB原始信息精选到3T token高质量信息 )。

2)在 Infra 部分进行运算规则、硬件、软件联合端到端优化,以此来实现模型训练效率的提升和极强的容错能力等工艺创新。

创始人李开复也在朋友圈发表:全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi,行业逐渐形成大模型的通用标准(就像做一个手机app开发者,不会去自创 iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。

别再声讨零一万物了

经过几年的演进,大模型圈里 LLaMA 以开源策略出圈,启发了大模型时代的开源文化,在此之后,全球多数的团队在 LLaMA 基础上进行微调训练。相比强调 “抄”LLaMA,在 LLaMA 基础上所做的工艺创新也同样值得关注。


2、目标 vs. 手段

无论何时,工艺创新都是驱动生产力进步的轮子。

但在当前的大模型增长中,“重复造轮子”的问题之所以为大家关注,是因为相比模型的数量与架构的比拼,决定整个行业命运的其他两个维度进展太慢:一是创新 AI 应用的涌现,二是成功的商业先例。

如前所述,大多数人都觉得,AI 时代、大模型时代的“Killer App”还没有出现。尤其在中国,大模型的数量增长与实际所爆发的应用没有成正比。在这种情况下,更多人趋向于认为:相比继续“卷”大模型,大家应该将更多重心放在 AI 产物的创新上。雷峰网

同样,在大模型的商业上,即使融资力跑在最前的几家大模型,也还未交出一份可观的商业答卷。

大模型创业公司研究基座模型的用途,与其商业模式息息相关,现有的商业模式主要有两种:一是卖模型,二是做应用。

也是在不确定因素更多的当前,工艺路线的选择也成为创业公司需要小心翼翼处理的问题。

如一位 AI 行业从业者指出,选择拥抱不同的生态意味着模型的架构也要不同。目前国内的开源模型中,与 LLaMA 架构不同的模型只有少数,如 GLM、RWKV,但后者的生态丰富度目前几乎还无法与 LLaMA 媲美。因此,目前国内的大多数大模型还是围绕 LLaMA 出发,如 IDEA 研究院的 Ziya 大模型就直接叫“Ziya-LLaMA”。

但与此同时,各家大模型也应该注意的一点是:LLaMA 是否为最优解?

一位资深投资者向笔者指出,如果 LLaMA 的架构足够抽象、已经能够囊括所有解的话,那么围绕 LLaMA 的开源与创新自然是最优选择;但万一 LLaMA 不是最优解,大模型创业公司直接在 LLaMA 的基础上研究,只掌握了从 1 到 100、而没有掌握从 0 到 1 的能力的话,届时进展到关键阶段后再回头,就很可能陷入寸步难行的险境。

这也是 LLaMA 开源独领风骚下需要警惕的地方。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

别再声讨零一万物了

乐闻

更多 >
  • 京产电影《捕风追影》获赞“近十年最好看的动作片” 成龙梁家辉“打”出新高度
    更新:2025-09-09 07:36
  • 抖音:假冒杨少华剪彩饭店账号被封
    更新:2025-09-09 07:17
  • 阿塞拜疆和亚美尼亚重申致力于推动双边关系正常化
    更新:2025-09-09 06:17
  • FBI、CIA前局长被调查 特朗普:他们非常坏 必须“付出代价”
    更新:2025-09-09 06:07

热门文章

  • 港交所陈翊庭:港交所将研究24小时交易机制
    港交所陈翊庭:港交所将研究24小时交易机制

    港交所陈翊庭:港交所将研究24小时交易机制

    在港交所2025年中期业绩会议上,港交所集团行政总裁陈翊庭表示:“港交所在保持全球竞争力方面始终坚持战略性投入原则。港交所在资本开支方面不会吝啬,我们持续加大在信息平台优化、交易结算系统升级等方面的投 ...

  • 三婚四娃,他的6任新欢旧爱,她最差?
    三婚四娃,他的6任新欢旧爱,她最差?

    三婚四娃,他的6任新欢旧爱,她最差?

    汪峰老师在综艺里整活了。宁静生日,他献唱了《你是我心爱的姑娘》,办了浮华的生日派对,用无人机送了星星熟悉不,原版见2015年章子怡生日宴),宠溺地说了「她开心就好」,拥抱了也牵手了——姐姐当场甩开了。 ...

  • 中国军方用激光瞄准德国飞机? 国防部回应:中方未使用激光设备
    中国军方用激光瞄准德国飞机? 国防部回应:中方未使用激光设备

    中国军方用激光瞄准德国飞机? 国防部回应:中方未使用激光设备

    [环球时报-环球网报道 记者 郭媛丹]针对有媒体称“德国指责中国军方用激光瞄准德国飞机”一事,国防部新闻局10日回应《环球时报》问询时表示,德方所言与事实完全不符。据媒体报道,德国政府此前表示,中国军 ...

  • 黎巴嫩总统:目前不考虑黎以关系正常化
    黎巴嫩总统:目前不考虑黎以关系正常化

    黎巴嫩总统:目前不考虑黎以关系正常化

    黎巴嫩总统约瑟夫·奥恩7月11日说,黎巴嫩目前没有将与以色列关系正常化列入议程,当务之急是维护和平,而非建立正式关系。据黎巴嫩总统府当天发表的声明,奥恩在会见总部位于卡塔尔的智库“阿拉伯与国际关系委员 ...

  • 尼日利亚一船只倾覆 20余人失踪
    尼日利亚一船只倾覆 20余人失踪

    尼日利亚一船只倾覆 20余人失踪

    △船只倾覆事故发生后,相关人员开展搜救行动8月17日,尼日利亚索科托州一艘载有50多人的客船在航行途中倾覆。当日的搜救行动救起25人,此后2天的搜救行动无果,搜救行动19日结束。当地时间20日,当地紧 ...

  • WAIC 2024 :容犀智能大模型应用升级发布,助力大模型提升产业效能
    WAIC 2024 :容犀智能大模型应用升级发布,助力大模型提升产业效能

    WAIC 2024 :容犀智能大模型应用升级发布,助力大模型提升产业效能

    7月6日,在2024世界人工智能大会上,容联云成功举办主题为“数智聚合 产业向上”的生成式应用与大模型商业化实践论坛。论坛上,容联云发布了容犀智能大模型应用升级,该系列应用包括容犀Agent Copi ...

  • 共话大模型技术进展与挑战,CCF大模型论坛北京会议圆满落幕!
    共话大模型技术进展与挑战,CCF大模型论坛北京会议圆满落幕!

    共话大模型技术进展与挑战,CCF大模型论坛北京会议圆满落幕!

    2024 年 6 月 6 日中国计算机学会大模型论坛CCF FoLM)主题会议在北京顺利举办。本次会议主题为“大模型技术进展与挑战”,各位专家围绕大模型技术的前沿动态、发展趋势及技术挑战等议题展开深入 ...

  • 不能折腾老百姓!国务院为这“一件事”持续发力
    不能折腾老百姓!国务院为这“一件事”持续发力

    不能折腾老百姓!国务院为这“一件事”持续发力

    来源:北京青年报撰文丨余晖据央视报道,7月7日至9日,国务委员兼国务院秘书长吴政隆在陕西、四川调研经济运行、政务支持等工作。吴政隆强调,要聚焦群众和企业所需,扎实推进“高效办成一件事”,完善重点事项常 ...

话报

更多 >
风趣播拍摄广告时一脚球击坏摄像机,贝克汉姆:他们让我瞄准摄像机
专榜何炅与杨钰莹牵手现身街头,他们真的太不容易了!
短瓜以军在加沙部署方案成停火谈判主要分歧之一
全讯港投公司与「港产独角兽」思谋科技今签定战略合作协议
最新大瓜腾讯Robotics X具身智能开放平台Tairos发布,融合左脑、右脑、小脑
瓜谈韩国女星嫁性犯罪者!婚前约定丁克,婚后试管还想生二胎?

风集乐

更多 >