{label:top}
首页 >> 全瓜> 正文

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

来源:全瓜发布时间:2025-09-09 14:43:11
浏览:966

作者:赖文昕

编辑:郭思、用扩尤洋陈彩娴

说起扩散模型生成的散模东西,你会立刻想到什么?型生

是OpenAI的经典牛油果椅子?

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

是英伟达Magic3D生成的蓝色箭毒蛙?

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

还是斯坦福大学和微软Folding Diffusion生成的蛋白质结构?

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

这些都是扩散模型的魔法展示,而近期,成神关于扩散模型的经网研究又进行了一次全新的升级。

由新加坡国立大学尤洋团队、团队郑州中学爆料地址加州大学伯克利分校以及Meta AI Research联手发布的不开一项名为“Neural Network Diffusion”的研究,已经实现了利用扩散模型来生成神经网络,玩笑这意味着扩散模型不再局限于生成表面的用扩尤洋产物或物体结构,而是散模直接进行底层革新,开始拿神经网络做文章了,型生颇有种用魔法来打败魔法的成神意味。

用扩散模型生成神经网络?经网NUS 尤洋团队:这不是开玩笑

论文地址:https://arxiv.org/pdf/2402.13144.pdf

该研究一出,迅速在国际AI社区引起了热烈反响,团队登上了各大模型开发平台的不开热搜榜单,在业界内收获了极高赞誉。

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

这项工作中,研究团队创新性地应用扩散模型来生成高性能神经网络的深圳理工大学绯闻全集参数配置。他们结合了自动编码器框架和标准潜在扩散模型(LDM)设计了一种新颖的方法,即“参数扩散”(p-diff),通过训练LDM从随机噪声中合成有效的神经网络参数latent representations。

此方法具有以下特点:1)它始终达到与训练信息相似的性能,甚至能在多信息集和架构中增强性能;2)生成的模型与训练的模型有很大的不同,这表明此方法可以合成新参数,而不是记忆训练样本。

扩散模型如何生成“神经网络”?

尽管扩散模型已经在视觉内容生成任务上取得了显著成就,然而在其他众多领域的应用潜力仍有待深入挖掘。

在此之前,学术界和工业界的研究重心主要在于如何通过传统的学习策略来获得针对特定任务表现优异的神经网络参数,而不是直接利用扩散模型进行参数生成。学者们普遍从统计学先验和概率模型的角度出发,例如探索随机神经网络架构及贝叶斯神经网络方法,以优化模型性能。

而在深度学习这个大框架下,虽然监督学习和自监督学习一直是训练神经网络的核心机制,并且在很多实际应用中取得了巨大成功。但为了更好地展示扩散模型在生成高效能模型架构与参数方面的卓越能力,研究团队大胆地将目光投向了尚未被充分探索的领域,尝试利用扩散模型来创造并优化高性能、结构新颖的神经网络参数。

简而言之,“Neural Network Diffusion”项目所采用的是一种名为“神经网络扩散”的方法(p-diff,p代表参数),使用标准的LDM来合成新参数。

该团队经过深入研究神经网络的训练机制以及扩散模型的工作原理后,敏锐地洞察到:基于扩散原理的图像生成过程与随机梯度下降(SGD)等常用学习方法之间存在着两种相似性。这意味着扩散模型或许能够借鉴并革新现有的训练范式,从而为构建更加智能且高效的神经网络提供新的视角与工具。

首先,神经网络训练和扩散模型的逆过程都可以被视为从随机噪声/初始化到特定分布的转变。其次,高质量图像和高性能参数也可以通过多次噪声的添加来降级为简单分布,例如高斯分布。

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

基于这些观察,研究团队引入了一种新的参数生成方法,称之为“神经网络扩散”(p-diff,p代表参数),它采用标准的LDM来合成一组新的参数。

扩散模型能够将给定的随机分布转换为特定的随机分布,因此研究人员使用了一个自动编码器和一个标准的LDM来学习高性能参数的分布。

该研究方法整合了参数自动编码器和扩散模型来实现神经网络参数的创新生成。首先,研究人员选取一组经过充分训练且表现出色的模型作为基础,从中抽取一部分关键或有代表性的参数子集,并将这些多维结构的参数展平为一维向量形式。

接下来,他们构建了一个参数自动编码器架构,其中包含一个编码器模块,用于从所提取的一维参数向量中学习潜在的低维表示(latent representations),这一过程能够捕捉到原有参数的关键特征和模式。同时配备一个解码器模块,其任务是根据这些潜在表示恢复出原始的高维参数结构。

在此基础上,团队进一步训练一个标准的扩散模型(LDM,Latent Diffusion Model)以适应参数生成场景,使其能够在随机噪声输入下逐步迭代并生成与目标参数对应的高质量潜在表示。

训练完成后,研究人员利用一个逆扩散过程(p-diffusion process)来生成新的神经网络参数。这个过程始于一个随机噪声向量,通过逆向递归地应用扩散模型的反变换,将其一步步转化为有意义的潜在表示。最后,将这些合成的潜在表示输入训练好的解码器中,解码器会将其转换为全新的、有望保持高性能的神经网络参数。这种方法不仅拓展了扩散模型的应用领域,还可能挖掘出之前未被发现的有效网络结构和参数配置。

训练后,研究团队利用 p-diff 通过以下链条生成新的参数:随机噪声 → 逆过程 → 训练好的解码器 → 生成的参数。

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑


为了验证该方法的有效性,研究团队紧接着还在MNIST、CIFAR-10/100、ImageNet-1K、STL-10等广泛的信息集上进行了评估实验,实验主要在神经网络ResNet-18/50、ViT-Tiny/Base 和 onvNeXt-T/B 上进行。

研究团队详细阐述了具体的训练细节。在实验中,自动编码器和LDM均包含了一个基于 4 层 1D CNN 的编码器和解码器。研究人员默认收集所有架构的200 个训练信息。 在神经网络 ResNet-18/50 上,他们从头开始训练模型。到了最后一个 epoch中,他们则继续训练最后两个归一化层并修复其他参数。在大多数情况下,自动编码器和潜在扩散训练可以在单个英伟达的 A100 40G GPU 上于 1~3 小时内完成。

实验过后,研究人员发现,在大多数情况下,p-diff的方法取得了与两个基线相似或更好的结果,这表明了此方法可以有效地学习高性能参数的分布,并从随机噪声中生成优异的模型。而且,该方法在各种信息集上始终表现良好,也证明了它具有良好的通用性。

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

那么如何进一步确认p-diff是否真正可以合成新参数,而不只是在记忆训练样本呢?

为了验证p-diff能够生成一些与原始模型表现不同的新参数,研究团队设计了另一个实验,通过比较原始模型、添加噪声模型、微调模型和 p-diff 模型的预测和可视化来研究它们之间的差异。

他们进行了四组对比:1)原始模型之间的相似性; 2)p-diff模型之间的相似性; 3)原始模型和p-diff模型之间的相似性; 4) 原始模型和 p-diff 模型之间的最大相似度(最近邻)。

可以发现,在不同情况下,生成的模型之间的差异远大于原始模型之间的差异。 另外,即使是原始模型和生成模型之间的最大相似度,也低于原始模型之间的相似度。这表明,p-diff 的确可以生成与其训练信息表现不同的新参数。

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

结语

Sora的平地一声惊雷,让本就火爆的文生图、文生影片的领域又增添了好几分热度,也让在图像和影片生成方面取得了显著成功的扩散模型获得了更多的关注。

而无论是Sora、DALL·E 、Midjourney,还是Stable Diffusion等已经拥有众多客户的模型,它们背后的魔法都是扩散模型。在已有的例子中,扩散模型总是被运用在生成图片或影片上,而这一次,扩散模型居然直接渗入更深层,直接生成神经网络,这堪称机器学习中“用魔法打败魔法”的神操作。

今日,研究团队中的三作 Zhuang Liu 还在社交媒体上答复了网友的疑惑,解释了“Neural Network Diffusion”和Sora 负责人 William Peebles 此前发布的研究“Learning to Learn with Generative Models of Neural Network Checkpoints”之间的区别:

William Peebles的研究工作是逐步生成参数,更像是优化器,将先前的检查点作为输入。 “Neural Network Diffusion”则是直接生成整套参数,无需之前的权重作为输入。

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

尽管研究团队目前尚未解决内存限制、结构设计效率和性能稳定性等问题,但使用扩散模型生成神经网络的创新尝试,让大模型领域的工艺边界又向外开拓了一面。

扩散模型未来将会有何增长,让我们拭目以待。

雷峰网(公众号:雷峰网)AI 科技评论将持续关注大模型领域动态,欢迎添加anna042023,交流认知,互通有无

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

专料

更多 >
  • 50%关税,正式生效!印度部分工厂“停工”
    更新:2025-09-09 12:49
  • 孟加拉国空军教练机坠毁已致27死
    更新:2025-09-09 12:31
  • 德国防长宣布加强对乌克兰防空援助
    更新:2025-09-09 12:13
  • 乌内部大搜查,G7大使团:“严重关切”
    更新:2025-09-09 12:06

热门文章

  • 女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报
    女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报

    女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报

    8月19日晚,广东惠州一家麦当劳内发生一起争执事件。8月21日,惠州市公安局惠城分局就此事发布警情通报:8月19日20时许,惠州110接群众报警称,在江北街道某餐厅内有一女子闹事。接报后,我局立即出警 ...

  • 时隔6年重现中国美学独特意蕴 《风雪夜归人》再登国家大剧院舞台
    时隔6年重现中国美学独特意蕴 《风雪夜归人》再登国家大剧院舞台

    时隔6年重现中国美学独特意蕴 《风雪夜归人》再登国家大剧院舞台

    来源标题:时隔6年重现中国美学独特意蕴 《风雪夜归人》再登国家大剧院舞台国家大剧院制作话剧《风雪夜归人》再度登台。北京日报记者 方非摄时隔6年,22日晚,国家大剧院制作话剧《风雪夜归人》再度登台,开启 ...

  • 强奸大嫂并杀害见义勇为者,田某明故意杀人案择期宣判,检方建议维持原判
    强奸大嫂并杀害见义勇为者,田某明故意杀人案择期宣判,检方建议维持原判

    强奸大嫂并杀害见义勇为者,田某明故意杀人案择期宣判,检方建议维持原判

    来源:中国新闻周刊7月22日上午,“男子强奸大嫂出狱后刺死见义勇为者”一案,由云南省高级人民法院在华宁县人民法院二审开庭。强奸大嫂并杀害见义勇为者的田某明,以故意杀人罪被起诉。庭审结束后,中国新闻周刊 ...

  • 京东外卖新模式上线:首家自营外卖门店开业
    京东外卖新模式上线:首家自营外卖门店开业

    京东外卖新模式上线:首家自营外卖门店开业

    外卖补贴大战接近尾声,但京东在外卖领域的动作却没有减少。7月21日,第一财经记者独家了解到,京东旗下名为“七鲜小厨”的外卖自营门店已在7月20日正式开业,这是京东首家外卖自营门店。客户可以在线上下单, ...

  • 我国虚拟电厂总规模超3500万千瓦
    我国虚拟电厂总规模超3500万千瓦

    我国虚拟电厂总规模超3500万千瓦

    每经记者 周逸斐 每经编辑 陈 旭8月26日,国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会,邀请国家能源局介绍“十四五”时期能源高质量发展成就。国家发展改革委党组成员、国家能源局局长王宏志 ...

  • 德国防长宣布加强对乌克兰防空援助
    德国防长宣布加强对乌克兰防空援助

    德国防长宣布加强对乌克兰防空援助

    当地时间7月21日,德国国防部长皮斯托里乌斯在乌克兰防务问题国际联络小组影片会议上宣布,德国将加强对乌克兰在防空领域的援助。此次会议由德国与英国共同主持,乌克兰新任国防部长什梅加尔及前任防长乌梅罗夫共 ...

  • 中央巡视组刚进驻,曾国东官宣落马
    中央巡视组刚进驻,曾国东官宣落马

    中央巡视组刚进驻,曾国东官宣落马

    据上海市纪委监委7月22日消息:上海市浦东新区人民检察院检察长曾国东涉嫌严重违纪违法,目前正接受上海市纪委监委纪律审查和监察调查。公开简历显示,曾国东,男,1968年4月生,汉族,研究生,法学硕士,中 ...

  • 北京燃油车彻底禁入网约平台
    北京燃油车彻底禁入网约平台

    北京燃油车彻底禁入网约平台

    来源:财联社据中国城市公共交通协会网约车分会消息,自7月20日起,北京燃油车彻底禁入网约平台。据了解,此前国六以下燃油车已被强制退场,此次政策进一步卡死所有油车入口。此前,有消息称北京油车司机在注册平 ...

热台

更多 >
  • 突发!SASI全面开火!
    突发!SASI全面开火!

    刚刚。SASI发歌了。就在刚刚,SASI正式发歌,火药味拉满。“上了一辈子节目”“所有说我们学黑人的,好像你boombap不是黑人的”而有网友认为,SASI歌中所指,或许和秃子有关。在此之前,秃子点名 ...

  • 儒商黄淦波与观音山森林公园
    儒商黄淦波与观音山森林公园

    来源标题:儒商黄淦波与观音山森林公园熟悉黄淦波的人都称他是儒商,他策划并连续十几年举办“观音山杯”文学、书法、绘画等全国性赛事,他还兼着“中国林业生态作家协会副主席 ...

  • 中国电影的发轫地迎来“王炸”阵容打卡热 从“酱园弄”到文旅消费新地标
    中国电影的发轫地迎来“王炸”阵容打卡热 从“酱园弄”到文旅消费新地标

    来源标题:中国电影的发轫地迎来“王炸”阵容打卡热 从“酱园弄”到文旅消费新地标乍浦路北海宁路路口的“酱园弄”外景墙。乍浦路风貌影视街区街景。胜利电影院外景。均文汇报记者叶辰亮摄 ...

  • 捏造杭州余杭“粪水”谣言,邵某豪被刑拘
    捏造杭州余杭“粪水”谣言,邵某豪被刑拘

    来源:公安部网安局近日,杭州市余杭区仁和街道及良渚街道部分区域出现自来水气味异常,已初步查明导致异味的为特定自然气候条件下藻类厌氧降解产生的硫醚类物质。经采样分析确认后随即启动供水突发事件应急预案,切 ...

  • 上海AI Lab庞江淼:开放平台是具身智能“ChatGPT时刻”的前提丨具身先锋十人谈
    上海AI Lab庞江淼:开放平台是具身智能“ChatGPT时刻”的前提丨具身先锋十人谈

    置身机器人这样的大热赛道,明星研究员总被如此之多的目光注视着。但关于庞江淼,网络查到的信息寥寥。为数不多的内容是,聚焦计算机视觉,浙江大学博士,香港中文大学MMLab研究员,接下来一份经历就是现在了— ...

  • 中美下一轮磋商将涉及购买俄、伊石油问题?外交部回应
    中美下一轮磋商将涉及购买俄、伊石油问题?外交部回应

    7月22日,外交部发言人郭嘉昆主持例行记者会。彭博社记者提问,美国财政部长贝森特表示,下一轮中美关税谈判可能包括讨论中国购买俄罗斯和伊朗石油的问题。外交部对此有何评论?郭嘉昆表示,中方立场是一贯和明确 ...

  • 再出险情 美国一客机险些与B
    再出险情 美国一客机险些与B

    据美国媒体7月21日报道,日前一架准备在该国中西部北达科他州降落的客机被迫进行急转弯飞行,以避免与一架美国空军B-52战略轰炸机相撞。△目击者18日拍摄到的B-52轰炸机综合多家媒体报道,作为达美航空 ...

  • 百万人围观顶流女星的“教育失败”?!
    百万人围观顶流女星的“教育失败”?!

    这个夏天很热,“星二代”赛道也异常热闹。陈奕迅女儿陈康堤、苏见信的女儿苏祐婕、钟镇涛的女儿钟懿纷纷在6月份出道,许多网友笑问莫不是星二代也有什么出道KPI?就连黄奕才12岁的女儿黄芊玲小名铛铛)也按捺 ...

  • 走过咖啡屋,再无千百惠
    走过咖啡屋,再无千百惠

    千百惠走了,但她的歌声将永远留在我们心中,成为永恒的经典。文 |阿 晖8月20日晚,歌手黄安发出讣告,称自己的好友女歌手千百惠去世,享年62岁。千百惠身边一名工作人员也向媒体证实,千百惠于8月19日因 ...

  • 从《林则徐》到《费加罗的婚礼》 国家大剧院“第二现场”重新定义艺术传播的边界
    从《林则徐》到《费加罗的婚礼》 国家大剧院“第二现场”重新定义艺术传播的边界

    来源标题:从《林则徐》到《费加罗的婚礼》 国家大剧院“第二现场”重新定义艺术传播的边界“第二现场”彩排花絮7月20日,国家大剧院舞台艺术“第二现场”联合 ...

  • 文化新观察|古装剧兴起“考据热”:读懂何以中华的兴趣“入口”
    文化新观察|古装剧兴起“考据热”:读懂何以中华的兴趣“入口”

    来源标题:文化新观察|古装剧兴起“考据热”:读懂何以中华的兴趣“入口”从《长安十二时辰》复刻唐代文物制作道具,到《梦华录》着力展示宋代茶文化,再到《长安的荔枝》参照敦煌壁画打造妆容…&h ...

  • 北京长城音乐会上演激情乐章 八旬殷承宗长城脚下奏响《黄河》
    北京长城音乐会上演激情乐章 八旬殷承宗长城脚下奏响《黄河》

    来源标题:北京长城音乐会上演激情乐章 八旬殷承宗长城脚下奏响《黄河》八达岭长城脚下,2025北京长城音乐会精彩上演。 主办方供图在长城的见证下,《保卫黄河》的激昂旋律在巍峨群山间回荡,“风 ...

趣汇尊湃侵犯华为海思芯片技术商业秘密案一审判决生效
料秀登记结婚却拿到离婚证?当地婚姻登记处:已道歉
风闻台受权发布丨住房租赁条例
风闻深品牌理念引领潮流,萨洛蒙牵手“萨门少女” 赵今麦定义女性户外新风格
风台聚国内首例!女子出差时被领导性侵,认定工伤后获赔113万,她说:遭遇侵害不耻辱,沉默才会让施暴者更猖狂
热速捏造杭州余杭“粪水”谣言,邵某豪被刑拘

热汇

更多 >