{label:top}
首页 >> 看谈> 正文

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

来源:看谈发布时间:2025-09-09 14:28:01
浏览:9

今年到 CNCC 现场参会的落幕朋友,想必都对 CNCC 2024 举办所在地——超过 6200 亩的国产横店圆明新园印象深刻!

虽然园内建筑身临其境,大模店并且薅了主办方一把羊毛,型已免门票游览了圆明新园与横店多个著名旅游景点,经进但园子实在是咖啡苏州学院门事件评论太大了。参会人数超过 1 万 2,落幕园内车辆、国产美食供不应求,大模店小编表示腿已经走断。型已

也是经进急中生智,我们想到:是咖啡否能用 AI 帮我们在横店点一杯咖啡?

结果,智谱真的落幕做到了!

在今年的国产 CNCC 上,智谱发布了一个新功能:自主智能体 AutoGLM,大模店智谱将其称为是一个可模拟客户点击屏幕的手机操作助手,以及点击网页的浏览器助手。

我们现场实测,整体操作非常丝滑:可以通过一句话下达任务指令,AI根据我的指令,打开了美团,按照我的要求点了咖啡,过程中除了付款环节不需要人的任何参与。

智谱这次发布的 GLM-4-Voice 情感语音模型「活人感」简直溢出屏幕,不仅能「呼吸」,撒娇也信手拈来,时不时有种「 AI 林志玲」的哎呀调调,话语间自带波浪号「哎~呀~」……

并且,我们真的成功在 CNCC 会场喝上了AI点的咖啡!

目前 Web 能力已经通过「智谱清言」插件对外公开使用,北京医科大学泄露全集不过手机端仅开放了安卓客户体验:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

从文本到文生图、文生影片,再到语音,事实上智谱本次的新工艺成果发布反映了在通往 AGI 追梦之路上的重新思考。

在 CNCC 大会第二天上午的主题圆桌论坛中,香港大学马毅教授提到,人类智能在大自然的进化过程中有两个「原生大模型」,一个是 DNA,另一个是语言;而之所以称这两个特征为大模型,是因为其本质上都具备自我学习的能力。 

尽管今年的大模型已经增长到了一个新高度(如 o1 的复杂推理),但现在大模型知识丰富、智能不足的短板仍是行业共识。如圆桌论坛中唐杰所言,我们距离 AGI 的实现还很遥远,这中间的研究趋势至少包含三步:多模态、推理与自我学习。

在 AI 能够自我推理、自我学习之前,多模态是必须跨过的一步,因为人类的智能学习规律就是文本、图像、语音乃至触觉、嗅觉等更多五官共同学习、相辅相成。

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡 

(智谱发了一个AGI进程图)

而 AutoGLM,其实是智谱在工具能力上的新研究,也是智谱所思考的 AGI 实现路径之一。

 

「活人感」满满的 AI 助手

在进一步分析理解智谱的 AGI 工艺路径之前,我们先来看一下智谱在语音模态上所取得的最新突破——

当前,智谱清言情感语音助手在响应和打断速度、情绪感知、情感共鸣、语音可控表达、多语言多方言等方面均实现了突破。

AI 科技评论对于这一系列功能革新进行了一番实测:

首先,我们给小智进行了一个比较常规的英语陪练测试,在纠正发音方面她确实表现良好,甚至日语练习的切换也相当丝滑。

随之,听说「小智」还精通北京腔、台湾腔、东北腔和粤语,作为广东人,可不能放过这个为难她的机会,于是,我们测试了「各个国家有各个国家的国歌」这段入门级粤语绕口令。 

实测发现,小智的粤语发音其实不算非常地道,甚至有一股泰国味。不过,在这之中,值得表扬得是,她能在领悟到我们的诉求是需要粤语回答时,自动将「旁白」部分也切换为粤语。 

之后,她又加赠了一段「吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮」的粤语绕口令展示,还想让我们也试试看。

而面对我们刻意为难提出的「加快语速」要求,小智也一宠到底,随着倍速居然能明显体会到她的情绪愈发激动,甚至伴随有呼吸声。

整体上看来,可谓是「活人感」十足。

同时,本届 CNCC 落地横店也给了小智些许施展拳脚的机会,我们带着小智一同游览了知名景点「秦王宫」,并让她化身李白澎湃激昂作诗一首。

小智写的诗是这样的:

「秦王宫中念群臣,壮志凌云绘风云。金戈铁马尽奔腾,万古英雄气不容。」

还挺有鼻子有眼的。

之后我们也尝试上了难度,想要前述古诗的东北腔读法,不过,小智貌似没有完全理会,她「哎呀妈呀」一声张口就来,随性发挥了一篇东北腔版秦王宫夸夸小作文。

小智还时常戏瘾大作,我们也让她即兴给我们讲了一段鬼故事,并模仿了故事中的女鬼笑声:

读到这里,小智所呈现的形象可能带有一丝幽默,甚至有些调皮。但值得关注的是,她其实也能给出非常多建设性的建议,并且在安慰人这方面也很走心。

我们扮演了一个疲惫打工人的角色和她半夜诉苦,小智也给足了情绪价值,甚至能代入闺蜜视角给到积极正向的安慰。

实际上,在对话开头,我们还告诉小智,在下班路上因为看到了彩虹而感到开心。

她不仅共情,还把这个内容默默记下了,下轮对话开启时,其第一句招呼语便是「希望彩虹带来的好心情能持续陪伴你,工作再忙也要记得照顾自己的情绪哟!」

这种每次开启新一轮对话时 Call Back 的细节处理,确实让人眼前一亮。

不过,我们也找到了 AI 无法替代人类智慧的证明,我们尝试和小智玩海龟汤游戏,汤面是「妈妈买回来一个大西瓜,我吃了,第二天我死了。」 

小智推理出的答案是,西瓜可能有致命的细菌或者农药残留,不能否认其中有一定道理,但之后她似乎开始逐渐忘记海龟汤的游戏规则,居然反问我们还有什么具体细节,这个测试到此戛然而止。

 

「人情味」背后的工艺支撑

据智谱在 CNCC 现场的发布介绍,AutoGLM 是基于智谱 GLM 大模型家族的新成员——GLM-4-Voice 情感语音模型。

熟悉智谱的朋友知道,今年初智谱推出第四代基座大模型 GLM-4 后,在 8 月的 KDD 2024 上又快速迭代升级了基座大模型 GLM-4-Plus,至此,大模型开始有了「眼睛」和「嘴巴」。

在语音上,8 月的智谱清言就已经可以实时影片通话。但 CNCC 发布的新成果 GLM-4-Voice 无论在底层工艺还是语音输出效果上都更上一层楼。

作为端到端的语音模型,GLM-4-Voice 避免了传统的 「语音转文字再转语音」 级联方案过程中带来的信息损失和误差积累,拥有理论上更高的建模上限。

与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成。

具体来看,智谱基于语音识别(ASR)模型以有监督方式训练了音频 Tokenizer,能够在 12.5Hz(12.5 个音频 token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。

语音合成方面,则采用了 Flow Matching 模型流式从音频 token 合成音频,最低只需要 10 个 token 合成语音,最大限度降低对话延迟。 

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡 

而在预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,智谱将 Speech2Speech 任务解耦合为 Speech2Text(根据客户音频做出文本回复) 和 Text2Speech(根据文本回复和客户语音合成回复语音)两个任务,并设计两种预训练目标适配这两种任务形式:

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡 

图|GLM-4-Voice 预训练信息构造 

能实现富有情感的对话背后,也离不开  GLM-4-9B 在深入对话理解上的支持。

智谱 GLM-4-9B  模型的上下文从  128K  扩展到了 1M tokens,使得模型能同时处理 200 万字的输入,大概相当于  2  本红楼梦或者  125  篇论文的长度。

此次新发布的 GLM-4-Voice 则在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错信息预训练,拥有了很强的音频理解和建模能力。


智谱对 AGI 的探索与思考

在大模型还没火起来之前,智谱团队就尝试过将其能掌握的所有中英文语料、图像、影片、语音等信息一起输入,参数规模甚至过万,但却发现:相较团队早期训练过的文本模型 GLM-10B 来说,万亿参数规模的多模态大模型反而在文本能力上有所下降。 

从人类智能的角度来看,五官是我们认识视觉最直接的介质,并且视觉、听觉与语言能力之间往往能相互增强。但在对 AI 多模态模型的探索中,结果却是相反:文本模态的智能水平并没有因为图像模态而增强,反而削弱。这个「非共识」的发现也作用了行业对 AGI 路径的思考。 

多模态是实现 AGI 的必经之路是业界共识。但是,多模态的研究要怎么展开?这其实是一个尚未形成共识的开放性问题,也是未来国产大模型需要继续思考的问题。

尽管 OpenAI 发布的 GPT-4V 与 GPT-4o、谷歌发布的 Gemini 让业内人员认为,多模态的增长应该朝着像海外 OpenAI 与 谷歌的工艺路线去增长。但科学的怀疑、验证精神在多模态研究中仍不可或缺。

比如,目前文生图、文生影片或图生影片等多模态的研究,就没有与主流的基础文本推理大模型结合起来,不同模态之间的 Gap 还很远。如何将不同模态结合起来,也是一个亟待解决的问题。

根据 AI 科技评论对智谱过去三年的观察,智谱的 AGI 路径事实上是:先聚焦文本大模型的能力提升,但在 GLM-3、GLM-4 等基座大模型发布后,智谱很快就将图像、视觉、语音等提升了日程,并同时不忘迭代代码模型、影片生成模型等。

智谱不仅聚焦单一模态的单点能力提升(如 ChatGLM3),也注重双模态、多模态的结合——但无论从哪个角度来看,智谱版的「Her」都具备了比现有国产大模型公司更全面的模态能力。

根据智谱 CEO 张鹏的介绍,在智谱看来,机器智能的分级从大语言-多模态-使用工具-自学习,也可以分为 L1 到 L5 这五个等级。除了 L1 到 L3 这三块为大家共识的分级外,L4、L5 就体现了前文所说的「AI 自我学习」能力: CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

从这个维度来看,智谱本次在 CNCC 发布的手机助手能帮我们现场点咖啡,已经是达到 L3 的工具使用阶段。

而且 CNCC 现场独家据悉,智谱在本月底将推出生成影片模型 CogVideoX 的升级版本 CogVideoX-Plus,张鹏透露的升级亮点是:60帧帧率、4K画质、10s时长、任意比例图生影片、运动稳定性大幅提升。 CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

智谱内部认为,目前我们距离 AGI 的道路只走了 42%。

他们根据大脑的能力,将 AGI 的工艺维度分为了视觉、听觉、语言等多模态感知与理解能力;此外,还有 AI 模型的长短期记忆能力、深度思考与推理能力、情感与想象力等。

此外,作为人的身体指挥器官,大脑还能调动身体的各个部分协同运转,使用各种工具——而这个方向,就是目前具身智能、具身大脑所探讨追求的方向。

如果将大脑的能力区域划分为 AGI 的工艺路线图,如下图所示,事实上目前的 AGI 科技树还有绝大部分没有被点亮。也就是说,在 42% 以外,智谱与当前包括 OpenAI 在内的其他大模型公司还有很长的路要走。

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡 

同时,当 AGI 参考人类大脑的能力画出如上工艺路线分布图后,智谱的 AGI 研究也超越了追赶 OpenAI 的阶段。这也是一份工艺指南,能够告诉大家:除了 GPT-o1 的推理能力,智谱还会发力其他的方向,如自我学习,模型指挥「肢体」执行工作任务等。

GPT-o1 体现的思维链从 2022 年开始,经历过从一两步推理到一致性推理、再到复杂多步推理的提升。从研究趋势上来看,多模态与推理都是实现 AGI 的必经之路,但无论是智谱 GLM 多模态家族、还是 GPT-o1,都体现出综合系统单点突破、循序渐进的第一研究原理。 

在追赶 AGI 的路上,我们应该乐观,但也要清楚认知目前所处的位置,不断追赶。雷峰网(公众号:雷峰网)雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

看报

更多 >
  • AI 颠覆的第一个职业是程序员?丨GAIR Live
    更新:2025-09-09 14:06
  • 前京东 AI 掌门人周伯文也入局 ChatGPT,衔远科技正在招募合伙人
    更新:2025-09-09 12:56
  • 知名女演员重病归来!自曝罹患乳腺癌,曾四登春晚
    更新:2025-09-09 12:08
  • 选举大胜的日本“参政党”什么来头
    更新:2025-09-09 11:55

热门文章

  • 特朗普重申:美国将不再批准光伏或风电项目
    特朗普重申:美国将不再批准光伏或风电项目

    特朗普重申:美国将不再批准光伏或风电项目

    来源:财联社财联社8月21日讯编辑 牛占林)当地时间周三,美国总统特朗普表示,他的政府将不会批准光伏或风力发电项目,即便在那些电力供应不足的地区。特朗普当天在Truth Social平台发文称:“我们 ...

  • 大模型行至深处,「悟道」如何走好全面开源之路?
    大模型行至深处,「悟道」如何走好全面开源之路?

    大模型行至深处,「悟道」如何走好全面开源之路?

    2021年,智源发布了“悟道 1.0 ”与 “悟道 2.0”。“悟道 1.0”是当时中国首个超大模型,“悟道 2.0”发布时成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI ...

  • 男子强奸嫂子,出狱后又刺死见义勇为者,二审将开庭
    男子强奸嫂子,出狱后又刺死见义勇为者,二审将开庭

    男子强奸嫂子,出狱后又刺死见义勇为者,二审将开庭

    近日,中国新闻周刊从被害人方代理律师处获悉,男子强奸嫂子后杀人未遂、出狱后泄愤又刺死见义勇为者一案,将于7月22日上午二审开庭,由云南省高级人民法院在华宁县人民法院公开开庭审理。被害人刘某某的儿子对中 ...

  • 欢娱影视国浩导演:尊重内容的导演也会被尊重
    欢娱影视国浩导演:尊重内容的导演也会被尊重

    欢娱影视国浩导演:尊重内容的导演也会被尊重

    作者|阿po在国产剧工业日益成熟的今天,导演的成长路径正呈现出多元化趋势。在成为欢娱影视签约导演之前,国浩的导演梦是靠着“土法炼钢”一步步磨出来的。从最初以演员为目标进入剧组,到转向幕后、从场记做起, ...

  • 二字弟弟分手了?于正封杀新人?童瑶忙应酬?毕雯珺新戏水?姨太问答
    二字弟弟分手了?于正封杀新人?童瑶忙应酬?毕雯珺新戏水?姨太问答

    二字弟弟分手了?于正封杀新人?童瑶忙应酬?毕雯珺新戏水?姨太问答

    小仙女们,晚上好!烧脑时间开始,交白卷的小仙女们,可以围观一下评论啊,真相帝往往就隐藏在其中!二字弟弟选择跟小伙伴们不一样的发展路线,可是喜欢跟天赋是两码事。他喜欢归喜欢,但天赋显然没有很明显。嘴上说 ...

  • 超越:俞勇和他的天才少年团
    超越:俞勇和他的天才少年团

    超越:俞勇和他的天才少年团

    20年前,上海交通大学用三天时间做了一个决定:成立ACM班。而这,直接推动了此后中国计算机技术的发展,ACM班也在后来被冠以“人工智能CTO摇篮”的盛誉。提出这个设想的创始人是当时刚刚年过四十的俞勇。 ...

  • 类ChatGPT新玩家「商量」入场,商汤如何「日日新」?
    类ChatGPT新玩家「商量」入场,商汤如何「日日新」?

    类ChatGPT新玩家「商量」入场,商汤如何「日日新」?

    作者 |李梅编辑 | 岑峰在魔都的东南角临港新片区,商汤科技人工智能计算中心AIDC在2022年启动运营,楼宇俯瞰宛若芯片。自ChatGPT以来,国内各家对大模型的追逐马不停蹄,继百度「文心一言」、阿 ...

  • 新算力 新赋能 新未来——第十八届CCF全国高性能计算学术年会在云上成功举行
    新算力 新赋能 新未来——第十八届CCF全国高性能计算学术年会在云上成功举行

    新算力 新赋能 新未来——第十八届CCF全国高性能计算学术年会在云上成功举行

    长风破浪会有时,直挂云帆济沧海!中国高性能计算正以前所未有的速度、能力、魄力和干劲,赋能千行百业的数智化转型升级,描绘算力经济时代的新蓝图。1云上相聚 盛况空前12月12-15日,第十八届CCF全国高 ...

吃瓜看点

更多 >
  • SpaceX“星舰”成功溅落,第十次试飞圆满结束
    SpaceX“星舰”成功溅落,第十次试飞圆满结束

    美国太空探索技术公司SpaceX)新一代重型运载火箭“星舰”美国中部时间8月26日18时30分北京时间26日7时30分)从得克萨斯州发射升空,实施第十次试飞。此次任务重点目标包括让飞船部署模拟卫星、在 ...

  • 深度丨王小川官宣百川智能:AGI 的终局是什么?
    深度丨王小川官宣百川智能:AGI 的终局是什么?

    作者丨董子博编辑丨岑峰“这131天,对我来说,就像过了好几年一样。”回忆起自ChatGPT诞生至今的日子,王小川如是说道。大模型创业,自卷起大潮后,已经过去了数月之久,王慧文将“光年之外”落在搜狐大厦 ...

  • 男子强奸嫂子,出狱后又刺死见义勇为者,二审将开庭
    男子强奸嫂子,出狱后又刺死见义勇为者,二审将开庭

    近日,中国新闻周刊从被害人方代理律师处获悉,男子强奸嫂子后杀人未遂、出狱后泄愤又刺死见义勇为者一案,将于7月22日上午二审开庭,由云南省高级人民法院在华宁县人民法院公开开庭审理。被害人刘某某的儿子对中 ...

  • 文心一言的四次进化论
    文心一言的四次进化论

    “两个多月,四次迭代,核心场景推理性能提高50倍。”这是百度在过去70天间为文心一言交出的成绩单。仅仅在两周前的技术交流会上,文心一言性能提升还不过十倍。也是在那次交流会上,百度首次现场演示了大模型微 ...

  • 警方再通报“奔驰车逼停摩托车”:女司机被罚200元记3分,双方自愿达成谅解
    警方再通报“奔驰车逼停摩托车”:女司机被罚200元记3分,双方自愿达成谅解

    8月21日,卓尼县公安局发布警情通报:针对我辖区江迭公路发生的因违规超车引发的治安警情,经我局办案民警连续多日调查取证,已查清全部事实并依法作了处理。2025年8月2日15时30分许,田某某女)驾驶白 ...

  • 阿里版 Copilot 惊艳亮相,AI 领域正式进入下半场火拼
    阿里版 Copilot 惊艳亮相,AI 领域正式进入下半场火拼

    距离被阿里“通义千问”刷屏还不到一周时间,4 月 11 日,阿里云峰会又再放大招。活动现场,阿里巴巴集团董事会主席兼 CEO、阿里云智能集团 CEO 张勇在云峰会上表示,阿里巴巴所有产品未来将接入“通 ...

  • 新算力 新赋能 新未来——第十八届CCF全国高性能计算学术年会在云上成功举行
    新算力 新赋能 新未来——第十八届CCF全国高性能计算学术年会在云上成功举行

    长风破浪会有时,直挂云帆济沧海!中国高性能计算正以前所未有的速度、能力、魄力和干劲,赋能千行百业的数智化转型升级,描绘算力经济时代的新蓝图。1云上相聚 盛况空前12月12-15日,第十八届CCF全国高 ...

  • 从智能云首次盈利,看百度如何在大模型时代奔流
    从智能云首次盈利,看百度如何在大模型时代奔流

    文心一言大模型发布整两个月后,百度披露了其第一份“大模型时代”的财报。5月16日,百度发布2023年Q1财报。财报显示:一季度,百度实现营收311亿元,同比增长10%;归属百度的净利润non-GAAP ...

  • 前经纪公司称千百惠葬礼拟于周六举行!5月不慎摔跤伤势严重
    前经纪公司称千百惠葬礼拟于周六举行!5月不慎摔跤伤势严重

    著名歌手千百惠于8月19日凌晨因病离世,享年62岁。20日,千百惠前经纪公司工作人员袁先生向南都N视频记者透露,千百惠19日凌晨因病在北京离世,其亲属计划于23日为其举行葬礼,“惠姐非常善良,希望大家 ...

  • 大模型的AB面:厂商讲算力,企业要落地
    大模型的AB面:厂商讲算力,企业要落地

    ChatGPT发布不过半年,全球性AI再造已经拉开序幕,甚至一开场直接进入白热化竞争状态。据不完全统计,国内类似ChatGPT的产品已经有接近40个。面对这一波浪潮,不少企业已经率先开展行动,将大模型 ...

  • 升级战场,降维打击,百度智能云正在改变战斗方式
    升级战场,降维打击,百度智能云正在改变战斗方式

    今年5月,阿里巴巴集团发布最新财报,2022财年阿里云EBITA盈利11.46亿元,实现13年来的首次盈利,更是成为中国唯一实现盈亏平衡的云服务商。这似乎释放了一个信号:云计算发展进入下一阶段,新的战 ...

  • “网红化”的张靓颖,不该道歉!
    “网红化”的张靓颖,不该道歉!

    张靓颖一夜之间,突然被“网红化”!只因在深圳演唱会上《九万字》时,以欧美风紧身流苏装、金丝眼镜, 扭胯甩头跳热舞......一批网友直接将她拉入“擦边”、“网红”、“低俗”化 的队伍。对于张靓颖这种舞 ...

风汇专独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
风汇视起底伪国学背后的“骗局”:两个月速成“国学大师”、200元定制“国学讲师”证书
风集闻​创新工场李开复:AI 2.0已至,将诞生新平台并重写所有应用
事台何炅的家底,都被扒出来了
风汇话宣布重大收购预案 开普云连续两日“20CM”涨停
专闻深度解读首份大模型报告:技术只是门槛,落地才是赛点

速汇

更多 >