{label:top}
首页 >> 事站> 正文

视觉模型智能涌现后, Scaling Law 不会到头

来源:事站发布时间:2025-09-09 17:18:13
浏览:799


Scaling Law 或将终结——这是视觉最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的模型论文,其研究表明当下的涌现语言模型在大量信息上经历了过度训练,继续叠加更多的视觉预训练信息可能会产生副作用。

这释放的模型信号是:在自然语言处理领域, Scaling Law 目光所及地到达瓶颈,涌现影视资源绯闻单纯依靠增加模型规模和信息量来提升性能的视觉方法也许不再有效,低精度的模型训练和推理正在使模型性能提升的边际效益递减。

Scaling Law 在 NLP 的涌现路上确实展现出了「即将到头」的前兆,但这并不意味着其末日真的视觉来临。在多模态模型领域,模型由于多模态信息包含图像、涌现影片、视觉音频等多种类型,模型在信息丰富度、涌现处理方法、应用领域方面均较为复杂,难以达到较大的训练规模体量,因此 Scaling Law 尚没有被真真切切地验证过。

然而,清华系大模型公司生数科技最新发布的 Vidu1.5 表明,多模态领域的 Scaling Law 才刚刚起步。通过持续的 Scaling Up , Vidu 1.5 已经来到了「奇点」时刻,涌现出了「上下文能力」,能够理解记忆所输入的多主体信息,并表现出对复杂主体更精准的控制能力。无论是细节丰富的角色还是复杂的物体,通过上传不同角度下的三张图片,Vidu 1.5 能保证单主体形象的高度一致。

视觉模型智能涌现后, Scaling Law 不会到头

Vidu 1.5 除了能对单个主体进行精确控制,也实现了多主体之间的高校情侣翻车记录全本一致性。客户可以上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝的融合到一起,并实现自然交互。

视觉模型智能涌现后, Scaling Law 不会到头

Vidu 在主体一致性方面取得种种突破,不仅是 Scaling Law 法则在发挥作用,根本原因在于其所采用的无微调、大一统的工艺架构方案。当前的影片模型为了实现一致性,大多是采用在预训练的基础上再针对单个任务进行微调的 LoRA 方案,而 Vidu 的底层模型跳出业界主流方案,做出了开拓性的改变。

无独有偶,回顾大语言模型的增长历程,会发现从 GPT-2 到 GPT-3.5 发生质变的标志,也是实现了从预训练+特定任务微调的方式到整体统一框架的突破。可以说,Vidu 1.5的推出,开启了多模态大模型的 GPT-3.5 时刻。

Sora 自年初发布之后,再无其他迭代的新版本,其他家的影片生成创业团队也仿佛没了锚定的方向,大多是在 DiT 架构上进行些衍生性工作。对于这一现象,生数科技 CTO 鲍凡则表示:我们不会在 Sora 划定好的路线上去追赶,而是从一开始就在走自己的路,瞄准通用多模态大模型的目标,去实现相应的能力。

从早于 Sora 发布全球首个基于 Diffusion 的 Transformer 架构U-ViT,到首次实现用统一的架构处理泛化任务,生数有的不仅是先发优势,更是持续突破的能力。Vidu 和业界其他的影片生成模型相比,已经初步形成工艺代差。


一、重新设计一个「底层架构」

实现主体一致性,是影片模型领域一块难啃的骨头。「这就好比,你知道发动机对于一辆汽车来讲很关键,也知道如果发动机有质的改变,那么汽车的性能也会随之提升,但就是很难造出来一台好的发动机。」鲍凡告诉 AI 科技评论。

包括 Sora 在内,国内外的影片模型都没有在主体一致性方面有所突破。目前有涉足的是国内的一家大厂,仅局限于实现人脸一致性的控制,难以保证细节、衣服、造型等细节,而且采用的是LoRA微调方案。

Vidu 在主体一致性方面的成果也并非一蹴而就。2024 年 7 月底, Vidu 上线之初就主打解决一致性问题,并能够较好地实现面部一致的控制;9月份全球首发「主体参照」功能,把对单主体的控制从面部拓展到整个单主体的形象上;11 月上线的 Vidu 1.5 则进一步提升,可以对单主体的不同视角进行高度精准控制,同时攻破多主体控制的难题。

也就是说,Vidu 在 7 月份上线之时就完成了很多影片生成模型当下正在攻克的事情。

从工艺方案上看,其他家都还囿于预训练+LoRA 微调的方案,这种路线虽然成熟但也存在诸多缺点,诸如因信息构造繁琐而需要较长的训练时间、易产生过拟合从而遗忘大量原有知识、无法捕捉细节导致特征不精准。生数则秉承通用性的理念,通过统一的底层模型工艺架构去完成,因此不需要单独再去进行信息的收集、标注、微调,只需要1到3张图就能输出高质量影片。

对比大语言模型的工艺演进路线会发现,Vidu 有和大语言模型一致的设计哲学:类似于大语言模型用一个 Transformer 去处理所有的输入和输出 tokens,Vidu 作为影片模型也会将所有问题都统一成视觉输入、视觉输出的 patches;在此基础上,再统一架构,Vidu 也像 大语言模型一样采用单个网络统一建模变长的输入和输出。

视觉模型智能涌现后, Scaling Law 不会到头

「统一问题形式」是通用模型的起点。更难的地方在于统一架构,现在 Vidu 已经在最初的 U-ViT 上做了一些颠覆性的设计,和 Sora 的 DiT 架构产生了本质区别,在架构上做到更统一。鲍凡坦言,开发这一架构的难度不亚于从头设计出一个 Transformer。

大一统架构的前身要追溯到 2022 年 9 月,彼时尚在清华大学朱军教授的课题组读博的鲍凡就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文,提出U-ViT 架构,比 Sora 的 DiT 架构提早了两个月,将 DiT 拒稿的 CVPR2023 却收录了 U-ViT。

2023年3月,朱军教授课题组再次发布了一项 Unidiffuser 的工作,Unidiffuser 与同阶段的 Stable Difussion 1.5 效果基本持平,展示了在视觉任务下的优异能力,更关键是,Unidifuser扩展性更强,能基于一个底层模型完成图文之间的任意生成。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。之后,而 OpenAI 则是将 DiT 应用于影片任务,生数作为初创团队则是先将 U-ViT 应用于图像任务,从算力集群规模要求更小的任务入手进行验证。

2024 年 4 月,生数的底层模型架构开始在 U-ViT 架构上做出改变,使得团队率先推出自研影片大模型Vidu,然后这种突破也一直持续着,在7月份正式全球上线的时候,Vidu 在人脸一致性问题上成功地实现了验证。直到本次 Vidu1.5 版本的发布,基于这一架构之上的 Scaling Up 让多模态模型看到了「奇点」。

回顾大语言模型增长过程,GPT-2 的核心思想是在预训练阶段让模型通过海量的文本信息进行无监督学习,不依赖于特定的任务;在预训练之后,GPT-2 使用特定领域的标注信息对模型进行细化调整,使其能够更好地适应特定任务或应用场景。但到 GPT-3.5 的阶段,不再采用预训练加特定任务微调的模式,只需一个更简单高效的统一架构能够去支持多种文本任务,模型已经出现了强大的泛化能力。

视觉模型智能涌现后, Scaling Law 不会到头

类似于从 GPT-2 到 GPT-3.5 ,实现了从预训练加特定任务微调到统一通用的工艺架构,Vidu 1.5的推出,让影片模型正在经历 GPT-3.5 时刻。也就是说,其他家的影片模型还在 GPT-2 预训练+微调的阶段,生数的 Vidu 已经到了 GPT-3.5 的阶段。


二、视觉上下文时代的智能涌现

统一高效的底层工艺架构是 Vidu 的根本所在,但其目前呈现的综合表现不仅是工艺架构使然,更与影片模型的信息工程密不可分。

在人物特写画面中,Vidu 1.5 能够确保人物面部的特征细节和动态表情变化自然流畅,不会出现面部僵硬或失真的现象。该影片中,小女孩的表情能实现从高兴到悲伤的变化十分自然。鲍凡告诉 AI 科技评论,信息对这些细节方面的精心调控非常关键。

视觉模型智能涌现后, Scaling Law 不会到头

视觉模型智能涌现后, Scaling Law 不会到头

随着高质量信息的一同Scaling Up ,鲍凡坦言,在底层的影片生成模型上也看到了类似于大语言模型的智能涌现。比如 Vidu1.5 能融合不同主体,将角色 A 的正面与角色 B 的反面无缝融合以创造出全新的角色,这是之前没有预料到的能力。

视觉模型智能涌现后, Scaling Law 不会到头

除此之外, Vidu1.5 的智能涌现还可以从模型上下文能力提升、记忆能力增强来窥探一二,这体现在对影片中角色、道具、场景的统一控制。

视觉模型智能涌现后, Scaling Law 不会到头

视觉模型智能涌现后, Scaling Law 不会到头

这一现象的关键是解决了「多图灵活输入」的问题,类似于语言模型提升了窗口长度。在与聊天机器人对话的过程中,先通过提示词给出一个角色设定,之后 Chatbot 就能以这个角色的口吻进行交互对话,这说明语言模型不仅仅处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。

同样的,给影片模型一个主体照片作为 prompt,那么在下文中无论继续给出什么新指令,都能生出上文照片中主体相关的影片。可见,影片模型要想更稳定地生成一致主体,也需要理解前后输入的、相关联的文字或图片信息,进而根据这些信息生成一致、连贯且有逻辑的内容。

实际上,从单主体一致性到多主体一致性提升的难度也在于上下文长度。在几个月之前的单主体架构的设计上,就已经兼容现在的多主体一致的架构,而多主体一致相比单主体一致需要更长的上下文长度,从而解决理解更多输入组合的关键问题。

接下来,生数的主攻方向依然会沿着上下文能力这一主线去迭代。「影片模型上下文能力提升后有很大的想象空间。」鲍凡说道。他进一步解释,在模型中输入几段王家卫的电影切片,就可以生成一系列具有王家卫摄影技巧的影片片段;喂给模型一些经典打斗动作的影片,就能生出打斗技巧精妙、打戏画面精良的影片。

视觉模型智能涌现后, Scaling Law 不会到头

Vidu 在上下文能力方面的迭代也有自己的节奏:从初期仅能参考单一主体的面部特征,到现在能参考多个主体,之后预期可以实现参考拍摄技巧、运镜、调度更因素。在这个过程中,参考对象从具体到抽象,要求和难度逐渐提升。

因为目前还没有针对影片模型上下文能力的开源解决方案,所以它并不会像大语言模型一样,在一家做好 PMF 之后,其他家迅速跟上。从这一角度上来说,Vidu1.5 形成了自己的工艺壁垒。


三、不止 Sora 一种答案

「无微调、大一统的工艺架构被生数设计出来,影片模型的智能涌现先在 Vidu 上得以验证——这些是必然事件。」鲍凡说道。「因为我们团队成立之初的愿景,就是去做通用的多模态模型。」

生数科技从来没有走过单一的、针对具体任务进行微调的方案,这与统一高效的架构是相悖的。这也意味着,通用多模态模型是生数的基因所在。

年初 Sora 刚发布之时,各影片生成创业团队都在「大秀肌肉」,竞争一度十分激烈。然而行至年终,整个行业有些显得「后劲不足」,初创公司的进展鲜有较大突破。然而生数科技却在自己的路线上「精雕细琢」,不仅有规律地提升模型通用性,也不忽略镜头感、动态程度等影片画面细节。

Vidu 1.5 在基础模型层面便具备了对镜头运动的理解能力,能够生成如推拉摇移+顺/逆时针融合的复杂镜头,画面拥有较高表现力和流畅度。比如,输入提示词:表演者拍摄,她被鲜花簇拥着,光线明亮且自然,镜头顺时针旋转推进拍摄,得到如下画面。

视觉模型智能涌现后, Scaling Law 不会到头

在动态性方面,Vidu1.5 生成的影片动作幅度大且自然,同时新上线了动态控制功能,能准确的控制画面整体的动态程度。

视觉模型智能涌现后, Scaling Law 不会到头

描述词:一个战士拿着枪在战场奔袭,大动态

除了影片能力外,Vidu 也在规划和布局 4D 模型、音频等更多模态。其中,基于影片模型衍生出来的4D 模型,未来能够对影片实现诸如「调整 6 度」的更加精确运镜控制。鲍凡表示,目前的初期阶段,团队会先单独验证多模态模型中的各个子领域,最后会整合在通用多模态大模型中。

视觉模型智能涌现后, Scaling Law 不会到头

生数工艺优势的愈发凸显,也给了其在国内影片模型竞争中的底气。但摆在其前面的挑战,还有快手、字节等大厂压倒性的资源优势。对此,鲍凡回复:当目标足够明确,并且做出的东西真正能够解决行业问题的时候,我们朝这个方向持续前进,最终结果总会是正确的。

对标世界范围内领先的 Sora,会发现生数与 Sora 的关注点并不相同。生数科技的定位是通用多模态大模型,而 Sora 更主张做世界模拟器,希望真实的模拟物理世界。虽然世界模拟器是多模态大模型的一个子问题,但生数的通用多模态大模型会强调解决更多实际问题。

生数并不会完全对标 Sora,更不会跟在 Sora 之后亦步亦趋。Vidu 证明了:影片模型不只于 Sora 这一个答案。雷峰网雷峰网雷峰网(公众号:雷峰网)



雷峰网原创文章,未经授权禁止转载。详情见转载须知。

视觉模型智能涌现后, Scaling Law 不会到头

短话

更多 >
  • 腾讯Q2财报:营销服务358亿!再创新高
    更新:2025-09-09 17:06
  • 被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
    更新:2025-09-09 16:24
  • 首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读
    更新:2025-09-09 15:28
  • 对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型
    更新:2025-09-09 15:15

热门文章

  • Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈
    Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈

    Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈

    那个因为腰痛而坐不下的男人,终于还是在WAIC坐下了,对面则是同为图灵奖得主、上海期智研究院院长姚期智先生。Geoffery Hinton给大家带来了几个话题与故事,几乎每一个都是关于人与AI的。第一 ...

  • 若愚科技:基于多模态大模型的机器人“大脑”领导者
    若愚科技:基于多模态大模型的机器人“大脑”领导者

    若愚科技:基于多模态大模型的机器人“大脑”领导者

    当前,“四肢发达、头脑简单”的传统机器人已经无法满足千行百业“机器代人”的需求,迫切期待机器人从单一场景自动化向复杂场景智能化的拐点出现。传统机器人实现高阶智能的关键是更加智能的机器人“大脑”。近日, ...

  • 哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世
    哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世

    哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世

    12 月 16 日中午雷峰网获悉:上海人工智能实验室主任、商汤科技创始人、香港中文大学信息工程学系教授汤晓鸥去世。经多位独立信源确认,此消息属实,目前等待官方发布讣告。20世纪60年代末,汤晓鸥出生于 ...

  • 2023 IDEA大会开幕 共探AI新篇章下的技术创新与创业
    2023 IDEA大会开幕 共探AI新篇章下的技术创新与创业

    2023 IDEA大会开幕 共探AI新篇章下的技术创新与创业

    11月22日,AI与数字经济领域一年一度的科创盛会,2023IDEA大会在深圳举行。IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院的重磅研产结晶与市场化成 ...

  • 中国“人工智能+”行动“路线图”来了
    中国“人工智能+”行动“路线图”来了

    中国“人工智能+”行动“路线图”来了

    新华社北京8月26日电新华社记者魏玉坤8月26日,“人工智能+”行动迎来重要进展:国务院印发的《关于深入实施“人工智能+”行动的意见》对外发布,明确了实施“人工智能+”行动的总体要求、发展目标和重点方 ...

  • 大模型「点火」,AI for Science 提速
    大模型「点火」,AI for Science 提速

    大模型「点火」,AI for Science 提速

    在生产环节中,95% 是一个分水岭。以人为对照标准,人工的准确率在 92% 至 98% 之间,因此,行业对机器容忍度的判别标准取之中位数,未达到 95% 的部分,无论是 80% 乃至 90% 的准确率 ...

  • 美图视觉大模型3.0:让设计师做甲方
    美图视觉大模型3.0:让设计师做甲方

    美图视觉大模型3.0:让设计师做甲方

    作者:郭思编辑:陈彩娴ChatGPT之前,国内最近一次的AI热潮是以“AI四小龙”的发展为代表,但这些公司烧钱程度与落地产出的不匹配,令市场倍感失望。时间来到2023年, 在ChatGPT 出来之后, ...

  • 在 AI 战场里拿掉英特尔,PC 能活吗?
    在 AI 战场里拿掉英特尔,PC 能活吗?

    在 AI 战场里拿掉英特尔,PC 能活吗?

    ChatGPT引发了一场大模型淘金热。一开始大家扎堆训练大模型。发现入局没有那么简单,发展到第二阶段,就开始出现了寄生于ChatGPT的众多APP和应用。无论是发力于向量数据库缓存,还是支持模型微调以 ...

风点播

更多 >
  • 中国最懂女人的男人:牵手林志玲,年入30亿
    中国最懂女人的男人:牵手林志玲,年入30亿

    文 | 万棱镜,作者|沐风,编辑|小峰他,被称为“中国最懂女人的男人” 。这个男人不是导演,也不是明星,却总是出现在女星的身边。10年前,他牵起林志玲的手,把她带进了中国县城的内衣店里;如今,徐冬冬、 ...

  • 若愚科技:基于多模态大模型的机器人“大脑”领导者
    若愚科技:基于多模态大模型的机器人“大脑”领导者

    当前,“四肢发达、头脑简单”的传统机器人已经无法满足千行百业“机器代人”的需求,迫切期待机器人从单一场景自动化向复杂场景智能化的拐点出现。传统机器人实现高阶智能的关键是更加智能的机器人“大脑”。近日, ...

  • 阿里云 all in AI 的决心
    阿里云 all in AI 的决心

    如何抓住 AI 的机会?这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。毋庸置疑,AI 与云已经成为紧密的拍档。大模型的迭代进化离不开云计算的支撑,而大模型的落地应用,给云计算勾勒了一 ...

  • 百川智能发布Baichuan2—Turbo系列API,开启企业定制化新生态
    百川智能发布Baichuan2—Turbo系列API,开启企业定制化新生态

    【雷峰网(公众号:雷峰网)消息】12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K 及Baichuan2-Turbo。在 ...

  • 以方决定暂时不对哈马斯同意的停火方案做回应
    以方决定暂时不对哈马斯同意的停火方案做回应

    当地时间20日,总台记者获悉,以色列战略事务部长德尔默前一日在巴黎与卡塔尔高级代表团会面时表示,以色列只对达成全面停火协议感兴趣,即哈马斯释放所有以方被扣押人员,并同意放弃加沙领导权。△加沙地带此外, ...

  • 问鼎「AI 之巅」,第四届全国人工智能大赛决赛在深举行
    问鼎「AI 之巅」,第四届全国人工智能大赛决赛在深举行

    近年来,中国人工智能产业的科技浪潮乘风渐起,从“技术研发”到“成果转化”再到“赋能应用”,众多行业因为AI的嵌入而焕发新的光彩。以赛事为牵引,为中国人工智能产业发现人才,挖掘创新是全国人工智能大赛一直 ...

  • 大模型落地,向量数据库能做什么?
    大模型落地,向量数据库能做什么?

    在保险行业这个海量数据的“聚居地”上,数据库应用已久。近年来,保司数据化转型提速,各类文本、音视频的凭证票证核保及跑批需求不断增加,许多机构便将数据库引入至业务流程中。但是,随着数据库深入保司业务,一 ...

  • 通用3D机器视觉平台是不是伪命题?
    通用3D机器视觉平台是不是伪命题?

    机器视觉是工业制造向“智造”升级的重要一环。从技术发展的趋势看,工业机器视觉正在经历从2D到3D的蝶变。3D视觉的价值在于,多一维度的信息数据主要是空间坐标),能满足对体积、形状、距离等信息测量的需要 ...

  • 词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆
    词作家杨湘粤忆千百惠:不久前还在深圳演出,是几代人的记忆

    8月20日深夜,著名歌手千百惠因病去世的消息传遍网络,引发公众追念。当晚,著名词作家杨湘粤向南都N视频记者回忆道,今年6月下旬,千百惠还来到深圳,与周冰倩同台演唱了《走过咖啡屋》。“她是一个乐观、豁达 ...

  • 大模型「点火」,AI for Science 提速
    大模型「点火」,AI for Science 提速

    在生产环节中,95% 是一个分水岭。以人为对照标准,人工的准确率在 92% 至 98% 之间,因此,行业对机器容忍度的判别标准取之中位数,未达到 95% 的部分,无论是 80% 乃至 90% 的准确率 ...

  • Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”
    Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”

    作者:赖文昕编辑:陈彩娴在刚刚结束的英伟达 GTC 大会上,CEO 黄仁勋描绘了一幅在 AI 大模型影响下软件开发的新蓝图:未来做软件不太可能重头开始写一大堆代码。“很可能你会组建一支 AI 团队。” ...

  • 谁将替代 Transformer?
    谁将替代 Transformer?

    【雷峰网(公众号:雷峰网)】2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer ...

风事新美国马里兰州一购物中心附近发生枪击 致1死1伤
独报人大 Sora 思辩:Sora 到底懂不懂物理世界?
新站南方电网发布首个「电力大模型」,百度智能云助力「智能电网」
风点点AI推理芯片,大模型「下半场」的入场券
风台播最后冲刺! 人身险产品切换倒计时
短料2023 IDEA大会开幕 共探AI新篇章下的技术创新与创业

风风汇

更多 >