与大模型交手近 1500 天，智源仍在坚持原始创新

来源:话报发布时间：2025-09-09 04:06:18

2024 上半年，大模 OpenAI 的型交成果从世界模拟器 Sora，到首个实现多模态 in 到多模态 out 的手近 GPT-4o ，仍在强势推进着迈向 AGI 的天智节奏。面对工艺上的源仍原始差距，追赶 OpenAI ——是坚持重庆大学门事件地址这场机器智能革命浪潮增长至今， AI 界仍在追求的创新目标和努力的方向。

但其实，大模当下的型交 AI 工艺尚处于高速迭代的过程，依然有非常多有挑战性的手近问题没有被解决，而其中的天智研究趋势和范式也不一定只有 OpenAI 才能引领。国内对机器智能对研究不应是源仍原始亦步亦趋，也不应止于 OpenAI。坚持

几乎与 OpenAI 同期捕捉到大模型的创新机遇，2018 即年成立的大模北京智源机器智能研究院推出我国首个大模型「悟道」，并一直承担着中国在机器智能行业原始创新的角色。一位悟道大模型的早期参与者告诉 AI 科技评论，「眼光和魄力」力是智源在在本次大模型浪潮中的可贵之处，甚至在最开始国内大模型起步阶段，智源会毫不犹豫地给予经费和算力支持。

如今的智源已走过 6 个年头，在第六届北京智源大会上值得注意的是，不同于以往从悟道 1.0 到 3.0 所推出的系列模型，本次智源推出了大模型全家桶，分别是大语言模型系列、多模态模型系列、具身智能大模型、生物计算大模型。这背后的原因是，今年 2 月王仲远接任智源研究院院长，带领智源团队基于大模型通往 AGI 的工艺路径的研判，对未来三到五年的战略规划进行了重新的梳理和判断。

与大模型交手近 1500 天，智源仍在坚持原始创新

「智源不会去做各企业已经在做的、重复性事情，而是深圳理工大学曝光价格去做原始性的创新，要去攻克的是业界的关键痛点抑或是前沿工艺的热点，真正为中国去做工艺突破。」智源机器智能研究院院长王仲远说道。

基于这一理念，在具身智能、生物计算等十分前沿的领域中，智源起到提前布局的开创性引领作用，打出了「人无我有」的先手，推出了具身大模型，在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果。在国内增长尚不成熟的生物计算大模型中，智源研发了全原子生物分子模型OpenComplex 2。

在国内争相突破万亿语言模型的节奏下，智源能做到「人有我优」，研发了全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。多模态大模型层面，智源并没有采用 DiT 架构，而是押注自回归路线研发了原生多模态世界模型 Emu 3，同时也推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B。

正如智谱 CEO 张鹏在智源大会上所说，智源从最早被定义成为 NGO 的偏新型研发机构，增长到今天已成为国内甚至国际机器智能领域的一面旗帜。智源也已经为中国机器智能界奠定了研究基础，培养了诸多当下业界中的顶尖人才，使得后人能够站在巨人的肩膀上进一步看到更广阔的 AI 世界。

而当下的智源亦坚持初衷，不懈怠脚步。「令人惊艳的东西不能只出现在大洋的彼岸。」王仲远说道。

一、0-1 的原始性创新

「大模型的思潮和很多工艺都是从智源增长起来的。」百川智能创始人王小川在 2024 智源大会上说道。

当下，非营利性科研组织站位使得智源既有工艺高度，又有智库的角色，能更多的进行0-1的原始性创新。

解决万亿参数模型的收敛痛点

万亿参数模型，是今年各大模型厂商的必争之地。

模型规模的提升，带来了模型精度的提升，但因为参数量规模过大，也对模型的训练带来了极大的挑战，包括内存需求大、网络通信量大、训练或推理性能低等问题，常常难以收敛。因此，今年市面上见到的更多为稀疏激活模型，较少有单体稠密的万亿参数模型。

可以说，现在的大模型生态格局中，缺少一个单体稠密万亿参数模型。王仲远告诉 AI 科技评论，智源在做的事是解决这一痛点，当某家厂商需要训练万亿乃至更大规模参数模型的时候，无需从头去解决收敛等一系列问题，开源社区中有一个好的初始化的版本，这时再基于更强的算力和信息量即可对模型进行进一步迭代，不再从头造轮子。

巨大算力消耗是大参数模型无法避开的问题。对此，智源联合中国电信机器智能研究院开发了基于模型生长和损失预测等关键工艺，推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T能够提高训练效率，降低能耗，实现低碳生长。该模型与百亿级的 52B 版本，千亿级的 102B 版本共同构成Tele-FLM系列模型。

仅以业界普通训练方案9%的算力资源，基于112台A800支持器，用4个月完成3个模型总计2.3Ttokens的训练，成功训练出万亿稠密模型 Tele-FLM-1T。模型训练全程做到了零调整零重试，算力能效高且模型收敛性和稳定性好。

目前，TeleFLM系列模型已经全面开源了52B版本，核心工艺（生长工艺、最优超参预测）、训练细节（loss曲线、最优超参、信息配比和Grad Norm等）均开源，Tele-FLM-1T版本即将开源。

Tele-FLM-52B 版本开源地址https://huggingface.co/CofeAI/Tele-FLM

Tele-FLM-Chat 试用（纯模型单轮对话版）地址https://modelscope.cn/studios/FLM/ChatFLM

并且，生长策略也为大模型训练提供了其他可能性，王仲远透露，将会将其用于异构芯片的异构计算上，基于此训练 MoE 模型。

不走 DiT 架构的多模态模型

今年，比万亿参数模型更火的趋势是多模态大模型。而其中在文生影片这一层面上，国内外主流的研究方式均以 Sora 的 DiT 架构为主，而智源却没有跟随 OpenAI 。

「DiT 当然能达到一个可用的产物级的模型，这是毫无疑问的。但如果瞄准的目标是真正为 AGI 而使用的多模态大模型，我们会认为自回归路线才是更佳的工艺路线。」王仲远如是判断。

基于此，智源研发了原生多模态世界模型 Emu 3，最开始即是为统一的多模态生成和理解而设计，采用智源自研的多模态自回归工艺路径，既统一了影片、图像、文字，也统一了生成和理解。目前，Emu3在持续训练中，经过保障评估之后将逐步开源。

「这个工艺路线真的很难，但这也恰恰是适合智源研究院来做的。但同时，我们在做原始创新的时候要尊重科学规律，也接受它失败的可能性，但即使失败也是非常有意义的。」

同时，为适应智能端侧的应用，智源研究院推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B，该模型系列采用灵活架构，可支持多种视觉编码器和语言基座模型。多个榜单的综合结果表明，Bunny-8B 的多模态能力可达到 GPT-4o 性能的 87%。目前，Bunny 模型参数、训练代码、训练信息已全部开源。

开源地址：https://github.com/BAAI-DCAI/Bunny

FlagOpen，打造大模型时代的Linux

一直以来，智源的大模型开源有两条线同时进行：一条线是进行智源所研发的悟道系列大模型的开源；第二条线是将整个大模型工艺体系开源，包括模型、工具、运算规则代码的开源等，建立了 FlagOpen。

时至今日，FlagOpen 的开源更多需要满足不断攀升的训练和推理计算需求，应对大规模AI系统和平台面临的集群内或集群间异构计算、高速互联、弹性稳定的工艺挑战。于是，智源研究院推出了面向大模型、支持多种异构算力的智算集群软件栈 FlagOS。

FlagOS 融合了智源长期深耕的面向多元 AI 芯片的关键工艺，包括异构算力智能调度运营平台九鼎、支持多元AI异构算力的并行训推框架 FlagScale、支持多种AI芯片架构的高性能算子库 FlagAttention和 FlagGems，集群鉴别工具 FlagDiagnose 和 AI 芯片评测工具FlagPerf。

FlagOS 如同“操作系统”一样，集异构算力运营、算力自动迁移、并行训练优化、高性能算子于一体。向上支撑大模型训练、推理、评测等关键任务，向下运营底层异构算力、高速网络、分布式存储。

目前，FlagOS已支持了超过50个团队的大模型研发，支持8种芯片，运营超过4600个AI加速卡，稳定运行20个月，SLA超过99.5%，帮助客户实现高效稳定的集群运营、资源优化、大模型研发。FlagOS的推出将为中国新一代智算中心的建设提供助力，显著提升智算集群的能力水平，加速大模型产业的增长。

二、「人无我有」的先手

「大模型变化得非常快，其中确实有部分工作是商业公司没有动力、也没有资源做的事。」面壁智能 CEO 李大海在 2024 智源大会上探讨道。

针对万亿参数模型、多模态模型等相对主流且有共识的项目，各大厂商花费较大力气尚可一试，但在在具身智能、生物计算等十分前沿的领域中，并不是任何一家都具备「想做就能做」的条件。对此，智源会打出「人无我有」的先手。

当下，我们会将大模型视作通用机器智能的基础、数字世界的智能体。未来，数字世界的智能体也会逐渐进入到物理世界，其方法有二：一是进入到硬件设备中，也就是具身智能；二是进入到微观世界，即和生命分子相关，是生物计算大模型。

具身智能大模型

智源研究院具身智能创新中心在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果。

在具身智能通用抓取能力方面研发了泛化抓取工艺ASGrasp，针对跨任意形状和材质的泛化难题，智源率先突破95%的真机实验成功率，从而实现了全球领先的商业级动作执行水平。借助这项工艺，即使在复杂光线透射、反射的情况下，机器人依然能够准确感知包括透明、高反光物体的形状和姿态，并预测出高成功率的抓取位姿。

在分级具身大模型系统方面，智源研发了能够从失败中重思考、再尝试的铰接物体操作大模型系统 SAGE。该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识，使大模型驱动的机器人能够在任务执行失败时能够重新思考并再次尝试新的交互方式。

并且，智源还研发了全球首个能做到开放指令控制六自由度物体拿取放置的大模型系统Open6DOR。该系统不仅像谷歌RT系列大模型一样按照自然语言指令中的要求将物体放到指定位置，还能够进一步对物体的姿态进行精细化控制。

在面向工艺终局的端到端具身大模型层面，智源发布了全球首个端到端基于影片的多模态具身导航大模型 NaVid。该模型可直接将机器人视角的影片和客户的自然语言指令作为输入，端到端输出机器人的移动控制信号。雷峰网雷峰网雷峰网(公众号：雷峰网)

针对新一轮的具身智能热，王仲远也提出了一些冷思考，要用客观理性的态度来看待前沿工艺，能够去接受它存在周期并持续投入知道跨越周期。

生物计算大模型

此外，智源研究院，还探索了生成式机器智能应用于分子生物学中的应用。智源研究院研发的全原子生物分子模型OpenComplex 2，是世界领先的大分子结构预测模型，能有效预测蛋白质、RNA、DNA、糖类、小分子等复合物。在生物分子结构预测领域国际竞赛CAMEO（Continous Automated Model EvaluatiOn）中，OpenComplex 连续2年稳居赛道第一，并获得了CASP（Critical Assessment of Techniques for Protein Structure Prediction）15 的RNA自动化赛道预测冠军。

OpenComplex 2 是基于全原子建模的生命分子基础模型，科研人员发现不仅可以预测大分子的稳定结构，还初步具备预测分子多构型以及折叠过程的能力。基于这样的能力，生命科学家可以进一步探索蛋白质的生物学功能。目前，智源已和研究伙伴在多项关键病症上展开了研究，提供成药性和分子机理研究。

智源研究院构建了全球首个实时孪生心脏计算模型，可实现高精度的前提下生物时间/仿真时间比小于1。实时心脏计算模型是虚拟心脏科学研究的开端，是孪生心脏走向临床应用的基础。基于这一模型，智源将创新性地采用物理-信息双驱动模型，融合第一性原理和机器智能方法，从亚细胞级、细胞级、器官级、躯干级仿真出一个“透明心脏”，且能根据患者的临床信息，构建出反映患者的个性化生理病理的孪生心脏，从而进行药品筛选、诊疗方案优化、术前规划等临床应用。

三、AI 研究的新范式

「要是三年前问我还需要多长时间可以实现 AGI，我可能会回答50年，但这几年随着大模型的增长，我认为这个数字可以除以 2，20年左右即可能实现。」在2024智源大会的现场，中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤笑着说道。

图片

具体来看，信息智能领域 0 至 5 年内，即可在对语言、图像、声音和影片的理解、生成等方面通过新图灵测试；物理智能领域 0 至 10年内，能实现大模型在物理环境中的理解与操作能力；生物智能领域 0 至 20 年内，都会聚焦人体、脑机接口、生物体、制药和生命科学，实现大模型与生物体连结的生物智能。

AGI 的加速来临，也侧面要求 AI 有新范式的变动。单纯靠 Scaling Law ，做不到 AGI。

在 Sora 及Dall-E团队负责人阿迪蒂亚·拉梅什（Aditya Ramesh）与纽约大学助理教授谢赛宁的交流过程中，也从工艺的角度传递出技底层工艺的变化：AI 行业正在从依赖手工标注的深度学习模型转向能够通过自然语言和描述性文本重建视觉内容的高级模型。

快速流变的同时， AI 带来的失控风险和保障问题也需提上日程。对此，零一万物创始人李开复博士表示，如果我们越来越依赖Reward model ，完全让 AI 自己找路径的话，发生失控的概率或许会增高，但中长期来看，需要尝试用“以子之矛攻子之盾”——用更好的工艺解决工艺带来的挑战。

尽管到如今 AI 增长面临诸多可能性与挑战，但回顾 2020 年开始悟道模型的研发，智源至少是在亚洲地区最早投入，而且真的投入去做大模型的机构。「最初成立智源、做悟道道想法是非常难得、非常领先的，今后 AI 研究的视野也会更宽广，智源也会成为促进中国 AI 生态繁荣的平台。」

AGI 还有很长的路要走。王仲远预判，GPT-4 之后的突破难度会更大，对算力资源、核心运算规则的要求都会更高，彼时将不是追赶的过程，而是突破的过程。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

返回资讯首页 >>

风汇话

更多 >

电影中的抗战——百团大战破囚笼
更新：2025-09-09 03:46
关注中国 AI “新势力”！9家参赛企业同场竞技
更新：2025-09-09 03:35
“侃爷”演唱会“迟到早退”，主办方致歉
更新：2025-09-09 02:13
俄官员：美国恢复向乌克兰供武不会改变前线局势
更新：2025-09-09 01:21

风报集

更多 >

黑天鹅！美联储突发！特朗普，终于动手了！
来源：中国基金报兄弟姐妹们啊，特朗普真的对美联储动手了，只不过这一次的目标，不是鲍威尔。特朗普考虑解雇美联储官员8月20日晚间，据一位白宫高级官员和另一位知情人士透露，特朗普表示，他正在考虑试图解雇由 ...
陈奕迅演唱会踩空摔倒，当台向观众鞠躬：没事；演唱会多次延期，身体状况受关注
7月14日，陈奕迅摔倒登上各平台热搜。据悉13日晚，陈奕迅在北京演唱会中，表演时倒退踩空台阶摔倒，发出重重一响，但他立即爬起来继续表演。据现场视频，陈奕迅之后向观众道歉称：“对不起，刚刚那个确实不是演 ...
杨紫李现《锦绣芳华》今日开播锦绣牡丹镌刻盛唐家国华章
来源标题：杨紫李现《锦绣芳华》今日开播锦绣牡丹镌刻盛唐家国华章由华策影视出品，傅斌星任总出品人，张灼任总制片人，孙旭任制片人，龙亚任艺术总监，丁梓光执导，张鸢盎编剧，杨紫、李现领衔主演，魏哲鸣特邀 ...
以军空袭加沙城导致两名记者死亡
当地时间13日，巴勒斯坦通讯社援引加沙地带卫生部门消息报道称，以军当天对加沙城的空袭导致两名记者死亡。自2023年10月7日新一轮巴以大规模冲突爆发以来，已有至少230名记者和媒体工作者遇难。 ...
尼日利亚一船只倾覆 20余人失踪
△船只倾覆事故发生后，相关人员开展搜救行动8月17日，尼日利亚索科托州一艘载有50多人的客船在航行途中倾覆。当日的搜救行动救起25人，此后2天的搜救行动无果，搜救行动19日结束。当地时间20日，当地紧 ...
美国将宣布“武装乌克兰”新计划
据美国阿克西奥斯新闻网站13日报道，美国总统特朗普将于14日宣布一项“武装乌克兰”的新计划。报道援引两名消息人士的话说，这项新计划“预计将包括向乌克兰）提供进攻性武器”。报道未提供更多细节。特朗普10 ...
今天白天阴有阵雨，最高气温30℃，出门携带雨具
市气象台15日6时发布：今天白天阴有阵雨，南风二三间四级，最高气温30℃；夜间阴转多云，南转北风一二级，最低气温24℃。雷电蓝色预警中，降雨对早高峰有作用，出门携带雨具，注意交通保障。吕永江摄来源： ...
关注中国 AI “新势力”！9家参赛企业同场竞技
8 月 19 日，《麻省理工科技评论》中国 AI + 创业大赛深圳赛区半决赛在深圳湾科技生态园创新广场发布中心成功举办，本次大赛由南京市人民政府主办，南京市工信局、南京经济技术开发区管理委员会、《麻省 ...
以方决定暂时不对哈马斯同意的停火方案做回应
当地时间20日，总台记者获悉，以色列战略事务部长德尔默前一日在巴黎与卡塔尔高级代表团会面时表示，以色列只对达成全面停火协议感兴趣，即哈马斯释放所有以方被扣押人员，并同意放弃加沙领导权。△加沙地带此外， ...
陈坤，对其子失管失教
来源：中国新闻周刊据云南昭通市纪委监委7月13日消息：日前，经昭通市委批准，昭通市纪委监委对盐津县人大常委会原党组成员、副主任陈坤已退休）严重违纪违法问题进行了立案审查调查。经查，陈坤身为党员领导干部 ...
“侃爷”演唱会未准时开演，主办方致歉：天气原因致舞台效果无法按标准呈现
7月13日23时许，YE上海演唱会主办方@上海星珀文化StellarAmberGroup发布声明，就美国说唱歌手“侃爷”Kanye West）7月12日的“YE LIVE IN SHANGHAI”演唱 ...
中国将实现时速400公里高铁商业化运营
中国建成了全球规模最大、现代化水平最高、运营场景最丰富的高铁网。截至2024年，中国高速铁路营业里程4.8万公里，占世界高铁总里程70%以上，我国已构建八纵八横主骨架，覆盖全国97%以上的50万人口大 ...