{label:top}
首页 >> 风事汇> 正文

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

来源:风事汇发布时间:2025-09-09 14:44:42
浏览:8

【雷峰网(公众号:雷峰网)】雨果曾经说过:“开启人类智慧宝库的揭秘三把钥匙,即数字、中国字母、音乐音符。模型”

音乐早已成为人类表达情感的揭秘最佳载体。

但音乐创作是中国B站大V社群录音外泄合集一件门槛很高的事情,因为音乐创作不是音乐某一个人的独角戏,而一个团队高度协作的模型过程。从作词、揭秘作曲到编曲、中国混音,音乐再到歌曲录制,模型每个环节都需要专业音乐人付出努力,揭秘并伴随着高昂的中国成本投入。

但试想一下,音乐如果有一天,我们只需手指点一点就能创作歌曲,那将会发生什么?

这种猜想在2023年,随着大模型爆火一步步发酵:

2023年,一场由“AI歌手”引领的翻唱热潮席卷网络,诸如孙燕姿、陈奕迅、林俊杰等众多华语乐坛巨星纷纷拥有了属于自己的AI替身,各个网络平台变成“AI歌手复出演唱会”的现场。这一切的背后,是So-vits Svc AI音乐生成工艺的应用。这项工艺通过解析少量音频片段,就能精确模拟目标歌手的独特音色,尽管在捕捉歌手的个性化唱腔特点、演唱技法及个人风格等方面尚存差距,但它近乎实现1:1的音色还原,也激发了一场全民音乐创作浪潮。

自今年3月以来,随着Suno V3和Udio发布,更衣室完整录音曝光全集这股音乐创作热潮被再次点燃。这次我们不仅可以翻唱某位歌手的歌曲,还可以通过输入几句歌词和音乐风格,就能获得两首时长约两分钟的完整歌曲。这种突破性的工艺创新,被业界视为真正意义上拉低了音乐创作门槛,让更多人能够参与到音乐创作中。

短短一年多时间,从So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen,再到SunoV3和Udio,大模型工艺不断重塑音乐创作领域。

可以看到,从克隆音色的“AI歌手”,到生成完整歌曲的Suno,AI音乐生成工艺正在不断飞跃。只可惜,这些产物距离生成高品质且类型丰富的歌曲还有段距离。特别在中文歌曲领域,一直没有一款符合中国人音乐审美的AI音乐生成大模型。

直到昨天,昆仑万维发布全球最大规模的开源MOE大模型「天工3.0」,并基于它打造了国内目前唯一公开可用的AI音乐生成大模型「天工SkyMusic」。这款音乐大模型在人声&BGM音质、人声自然度、发音可懂度等性能方面,以6.65分的综合得分超越Suno V3,成为中国首个音乐AIGC SOTA(state of the art,领域最佳水准)模型。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

那么天工SkyMusic是如何成为中国首个音乐AIGC SOTA模型?它的实际体验如何呢?下面我们一起来看一下。


1
中国首个音乐AIGC SOTA模型

打开天工 APP,点击音乐板块,输入歌名和歌词,选择你想要参考的歌曲,再点击生成音乐,即可获得由你创作的歌曲。这就是「天工SkyMusic」简化而高效的音乐创作全过程。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

这种参考音乐生成能力,也是「天工SkyMusic」的一大亮点。客户既可以上传自己喜欢的歌曲作为模板,也可以从「天工SkyMusic」庞大的信息库中挑选合适的参照曲目,系统将据此生成风格相近、嗓音神似的全新作品。这一特性显著降低了音乐创作的工艺门槛,使得即便是缺乏专业音乐素养的普通客户也能参与音乐创作,享受创作音乐的乐趣。

利用「天工SkyMusic」,我们制作了两首风格迥异的《乘鹤》:


从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

再输入一首耳熟能详的英文童谣《小星星》,将它改编成摇滚风格和抒情男声版本,也算是对童年的独特回忆:

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

在创作中我们发现,「天工SkyMusic」涵盖了说唱、民谣、放克、古风、电子等多种曲风。下一步,团队还计划让客户根据哼出来的旋律生成歌曲。同时相比SunoV3等海外同类产物,「天工SkyMusic」创作的歌曲在中文人声细腻度和可识别度上表现更优秀,还能运用颤音、吟唱、男女对唱、自动和声等技巧。

再来一首《明天不上班》,庆祝一下即将到来的星期五。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

这首歌也完美展示了「天工SkyMusic」相较Suno的核心体验优势——方言歌曲生成能力,即让客户能自如地利用四川话、粤语、北京话等多种方言演唱歌曲,极大丰富了客户的音乐创作空间。

如此卓越的AI音乐生成模型,为什么才出现呢?究其原因,是因为处理音乐信息比处理图像和影片信息更复杂。音乐作为一种长时序的工艺形式,每秒内包含数万个相互紧密关联的采样点,这种内在的复杂性使它成为最复杂的模态之一。加之音乐中融合了歌词、人声及旋律等多种信息层次,每层之下又包含海量的信息,这意味在处理音乐时,不仅要构建精确的时间序列模型,还要综合考虑声波形态、频率特性、节奏结构等诸多要素。

不过随着AI大模型工艺的不断演进,已经找到两种驾驭音乐复杂性质的有效策略,这也构成了AI音乐生成大模型的两大工艺路径:符号音乐生成路线、大模型音乐音频生成路线。

符号音乐生成路线,是通过标注大量乐谱信息再训练模型,这条路线在学术界已有广泛研究,但它最终生成的是乐谱,借助其他程序或工具转化成可观看的音乐,而且实际效果并不尽如人意。

大模型音乐音频生成路线则是涵盖乐器、人声、旋律、音量和音符等音乐元素的端到端一体化生成,最终生成的是可听的音频文件。但代价是需要巨大的研发资源投入和对大规模训练信息集的依赖。即便如Google、OpenAI等行业巨头,也尚未取得重大突破。

此外,AI对人声演唱真实感的模拟也是至关关键的研究课题。但过去的AI音乐工艺主要聚焦于无人声演唱的背景音乐(BGM)创作,对人声演唱的Song领域一直缺少有效的解决方案。

「天工SkyMusic」在立项之初,昆仑万维就面临着这两项艰难的选择。最终,研发团队一致决定选择大模型音乐音频生成路线并攻坚人声Song领域。这意味着昆仑万维将在几乎没有任何开源可借鉴的情况下,正式挺进AI音乐生成工艺的两个无人区,难度可想而知。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

经历多次实验探索,研发团队意识到DiT结构与AI音乐生成大模型的深度兼容性,并坚定地朝这个方向投入,最终自主研发出适用于音乐音频领域的类Sora模型架构,填补了行业在工艺路线以及人声演唱领域的工艺空白。这套架构包含三大核心模块——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer 负责谱曲,学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频。

同时为训练「天工SkyMusic」,昆仑万维建立了迄今为止全球最大的音乐信息集,包含了两千余万首歌曲样本,确保了「天工SkyMusic」在音乐风格上精准可控和广泛适用。

如此,「天工SkyMusic」降低了音乐创作的准入门槛,让音乐创作不再存在专业壁垒。真正意义上拉近了音乐创作与普通大众的距离,推动了AIGC产业向前迈进了。同时昆仑万维还主动公开了「天工SkyMusic」的工艺原理图,为全球开源社区和开发者提供了可参考的案例,促进全球AIGC工艺生态的共建共享。


2
能独立思考的天工3.0大模型

「天工SkyMusic」的成功离不开背后的工艺底座「天工 3.0」。昆仑万维董事长兼CEO方汉表示:“文本大模型是所有AIGC坚实的基础。所有的社交、游戏、音乐专属模型都是需要文本大模型去支撑的。”当前,无论是GPT模型、GLM模型还是Baichuan模型,都是采用底层文本大模型与专业细分大模型相结合的方式。

昆仑万维发布的「天工 3.0」拥有高达4000亿参数,性能全面超越3140亿参数的MoE大模型Grok1(xAI),是迄今全球最大规模的开源MoE大模型,也是昆仑万维旗下所有AI工艺应用模型的基石。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

相较于上一代,「天工 3.0」在模型语义理解、逻辑推理以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其工艺知识能力提升超过20%,数学 / 推理 / 代码 / 文创能力提升超过 30%。

同时作为多模态大模型,「天工 3.0」集成了AI搜索、AI写作、AI长文本阅读、AI图片生成、AI音乐生成等功能。在权威评测MMBench-CN的评估中,「天工3.0」的AR(属性推理)、RR(关系推理)、FP-C(细粒度感知-交叉实例)、CP(粗略感知)四项性能均位列榜首,整体综合成绩更超越GPT-4V,稳居全球多模态大模型首位。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

基于性能与能力的全方位跃升,「天工3.0」还掌握了至关关键的独立思考能力。这使得它能够在多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多项能力上,为客户提供前所未有的AI应用体验。

「天工3.0」拥有很强的逻辑推理能力:

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

「天工3.0」还能够更好地理解和处理客户自然语言Query中的复杂语义信息,包括隐喻、多义词等。例如最近爆火的“成都迪士尼”,我们问了天工大模型,它不仅可以精确地解释这一网络热梗。还会通过追问,为我们规划行程或给到近期的游客反馈。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

在面对产业研究、产物横评、信息分析、图片生成、图表绘制等复杂需求时,「天工3.0」能同时展示多种能力,控制模型去完成任务。

在执行“查询南非国家2023年的人均GDP,并制作成柱状图”一任务过程中,「天工3.0」率先调用了搜索功能,再调用python工具绘制柱状图,最后加以解读和总结,给出了正确的答案和全面分析:

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

「天工3.0」先通过语义理解对客户需求进行深度理解,再通过逻辑推理能力将复杂的任务拆解成细分环节,最后通过独立规划以及调用、组合外部工具及信息,将细分环节发到不同模型,从而精准高效的完成这类复杂需求。

内容创作能力一直是「天工」系列大模型的强项,在上一代「天工2.0」大模型的基础上,「天工3.0」更是进行了全面的内容创作能力升级,其不仅能实现AI音乐生成、AI语音、AI对话、AI二次元漫画生成等强大的内容创作能力,更是通过专项Agent训练实现了在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力。

让「天工3.0」分析小米SU7跟蔚来ET5哪款车更好:

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

可以看到在如上述这种产物对比的复杂需求中, 「天工3.0」可以根据需求,实时内容分析并构建图表来让结果呈现更明晰。



3
后记

通过「天工3.0」和「天工SkyMusic」的发布,我们可以看到,昆仑万维“All in AGI 与 AIGC”的战略并不是停留于理论的口号,而是真切指引着昆仑万维在工艺和商业模式上的每一处布局。依托“天工大模型”这一工艺基石,昆仑万维已规划出包含AI大模型、AI搜索、AI音乐、AI社交、AI游戏和AI影片在内的六大AI业务矩阵,并着力整合这六大板块,构筑一个集成式的AI UGC平台。

“昆仑万维认为下一代的AI巨头一定是C端加上免费,因为互联网时代和移动互联网时代的成功企业均采用免费加C端模式,而在AI时代,我们同样坚信这一逻辑。”方汉表示。

由于大模型每次提供支持都需要耗费推理资源,为了实现免费toC模式,方汉总结出产业的三条路径:“第一条,通过持续优化,将推理成本降低至客户创造的广告价值之下;第二条,通过AI手机实现端侧推理,将推理成本分摊至终端硬件中。第三条,建立AI UGC平台,由1%的客户创造内容,99%的客户消费内容。”

这三条路径并不互相矛盾,只是分属于产业的不同阶段。比如,方汉判断,在AI终端硬件大面积普及之前,AI UGC平台落地会更快速形成商业闭环,但大模型的终局一定是终端AI。

不论是「天工SkyMusic」,还是其他核心AI业务,皆遵循这一商业逻辑。即通过AI工艺赋能,降低创作门槛,持续扩大内容创作者群体,以此提升个性化内容的生产量与丰富度,从而满足了大众对于优质内容的消费需求,形成正向投资回报率的良性循环。

同时昆仑万维也将运用AI工艺打破传统内容创作壁垒,让不同文化和语言群体都能够在这一AI UGC平台上轻松传达自身的故事与情感,促进全球范围内实现文化平权。

在推进AI UGC平台建设的过程中,昆仑万维坚持工艺创新与商业模式创新相结合,积极探索适合当下及未来市场的增长路径。昆仑万维正全力践行“All in AGI 与 AIGC”,力争在全球范围内构建一个包容性强、参与度广、创新能力出众的AI内容生态,引领行业迈向一个崭新的时代。



雷峰网原创文章,未经授权禁止转载。详情见转载须知。

从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

话集

更多 >
  • 反诈指南之校园篇——必看!这些骗局专坑学生群体
    更新:2025-09-09 14:38
  • 54岁歌手汪峰直播卖299元音乐课,被指销量惨淡
    更新:2025-09-09 13:46
  • 大模型算力的「热」与10亿万卡成本的「冷」思考
    更新:2025-09-09 13:40
  • 农村新公厕“只能看不能用”,央媒曝光
    更新:2025-09-09 12:37

热门文章

  • 中国月度用电量首破万亿大关
    中国月度用电量首破万亿大关

    中国月度用电量首破万亿大关

    全社会用电量7月历史性突破万亿千瓦时大关,这在全球也属首次。国家能源局今天对外发布了7月全社会用电量,达1.02万亿千瓦时,同比增长8.6%。比十年前翻了一番,相当于东盟国家全年的用电量。多轮高温天气 ...

  • 停课、停航、橙色预警!台风“韦帕”加强为台风级
    停课、停航、橙色预警!台风“韦帕”加强为台风级

    停课、停航、橙色预警!台风“韦帕”加强为台风级

    今年第6号台风“韦帕”已于19日夜间加强为台风级,今天20日)早晨5点钟其中心位于广东省珠海市东偏南方约190公里的广东近海海面上,中心附近最大风力有12级33米/秒),中心最低气压为975百帕,七级 ...

  • 丘棕榆同学考上清华,县委书记看望
    丘棕榆同学考上清华,县委书记看望

    丘棕榆同学考上清华,县委书记看望

    来源:政事儿广东“陆河融媒”消息,近日,陆河县委书记程永东来到新田镇屯寨村,看望慰问被清华大学核物理专业录取的陆河优秀学子丘棕榆同学,对他及其家人表示祝贺与祝福。程永东左)看望慰问丘棕榆在丘棕榆家中, ...

  • 周渝民夫妇遭好友诈骗详情:误入代缴保费陷阱,三方被判担责
    周渝民夫妇遭好友诈骗详情:误入代缴保费陷阱,三方被判担责

    周渝民夫妇遭好友诈骗详情:误入代缴保费陷阱,三方被判担责

    艺人周渝民与妻子喻虹渊曾被好友冯某以“代缴保费”为由,骗走3447万余元新台币约人民币841万元)。南都记者获悉,7月19日,台北地方法院就此案作出民事判决。实施诈骗的保险经纪人冯某,及其苏姓主管和所 ...

  • 商务部:将于9月出台扩大服务消费的若干政策措施
    商务部:将于9月出台扩大服务消费的若干政策措施

    商务部:将于9月出台扩大服务消费的若干政策措施

    来源:财联社财联社8月27日讯,国务院新闻办公室今日上午10时举行新闻发布会,请商务部副部长盛秋平、北京市副市长司马红介绍中国服务贸易发展和2025年服贸会筹备工作进展情况,并答记者问。系列促进服务出 ...

  • 元象首个多模态大模型 XVERSE
    元象首个多模态大模型 XVERSE

    元象首个多模态大模型 XVERSE

    人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI通用人工智能)迈出更大步伐。元象今日发布多模态大模型 XVERSE-V ,支持任意宽高 ...

  • “村民素质低、有活动才开门” 农村新公厕只能看不能用?
    “村民素质低、有活动才开门” 农村新公厕只能看不能用?

    “村民素质低、有活动才开门” 农村新公厕只能看不能用?

    《财经调查》栏目组接到群众举报,村里投入不少资金建成的新公厕常年挂着锁、关着门,成了村民口中“只好看不好用”的摆设。一边是崭新的公厕“铁将军把门”,一边是村民无奈继续使用“脏乱差”的老旧旱厕,建好的公 ...

  • 70岁费玉清:不婚,退圈,爱一个人...
    70岁费玉清:不婚,退圈,爱一个人...

    70岁费玉清:不婚,退圈,爱一个人...

    12019年11月,台北。天落小雨。小巨蛋门口,队伍排得长。少男少女,老妪老翁,都来了。来赴费玉清的约。他从17岁,唱到64岁。47年演唱生涯,今晚,是句点。演唱会上,他说:“今后任何媒体呼唤我,我都 ...

看台

更多 >
  • 中美俄战略三角,有新动向
    中美俄战略三角,有新动向

    来源:直新闻直新闻:在近来美俄乌欧的互动中,您觉得中国发挥了什么样的重要作用?特约评论员 庚欣:近日,中美俄大国关系出现了一些新的互动局面。中美和美俄之间分别就经贸纠纷和军事冲突等都在展开磋商。8月1 ...

  • 拒不配合调查,尹锡悦被韩国内乱案独检组提起公诉
    拒不配合调查,尹锡悦被韩国内乱案独检组提起公诉

    据韩联社报道,当地时间7月19日,韩国负责调查内乱叛国案的独立检察组独检组)对韩前总统尹锡悦提起公诉,尹锡悦将在被羁押的状态下接受审判。在调查尹锡悦夫妇相关疑惑的三个独检组中,内乱案独检组最先起诉尹锡 ...

  • 被嘲“擦边网红”,离婚后她放飞自我?
    被嘲“擦边网红”,离婚后她放飞自我?

    ♪ 你如此特别,我又怎会失望 ♫文 | 伊姐周桂伊)叶子姚最近张靓颖被骂了。个人巡回演唱会上,她的造型引发全网热议。紧身热辣短裤,知性金丝眼镜,提臀扭胯开唱,被嘲“海豚公主网红化”。还有网友形容“ ...

  • 签约!自然资源部与中央广播电视总台达成战略合作 大型系列节目《自然中国》启播
    签约!自然资源部与中央广播电视总台达成战略合作 大型系列节目《自然中国》启播

    来源标题:签约!自然资源部与中央广播电视总台达成战略合作 大型系列节目《自然中国》启播6月6日,自然资源部与中央广播电视总台战略合作框架协议签约暨大型系列节目《自然中国》启播活动在京举行。自然资源部党 ...

  • 穿着大肚兜的林雪,惊艳亮相《长安的荔枝》,观众看后惊呼大佬
    穿着大肚兜的林雪,惊艳亮相《长安的荔枝》,观众看后惊呼大佬

    大鹏新片《长安的荔枝》好评如潮,其中不仅主角演技精彩,配角林雪同样令人眼前一亮。片段中,林雪穿着白肚兜,披着红披风,玩着射箭,出场就是大佬既视感。而在之前,林雪在《功夫》里,给观众的感觉就是小混混一个 ...

  • 入伏了!30天的三伏天怎么过?快收藏避暑攻略→
    入伏了!30天的三伏天怎么过?快收藏避暑攻略→

    今日20日)入伏今年三伏天共30天入伏后,北方多干热,南方多闷热易出现“桑拿天”注意遮阳避暑,及时补水!监制丨王元主编丨蒋安琪 黄绪甜制图丨蒋秋飞 ...

  • 俄罗斯接连发生6.6级、7.2级强震
    俄罗斯接连发生6.6级、7.2级强震

    中国地震台网正式测定:北京时间今天07月20日)14时49分,在堪察加东岸远海北纬52.90度,东经160.45度)发生7.2级地震,震源深度10千米。北京时间14时28分,根据中国地震台网测定,该区 ...

  • 潘斌龙:他演活了小人物,因为自己就是“无名之辈”
    潘斌龙:他演活了小人物,因为自己就是“无名之辈”

    7月5日,备受期待的《无名之辈》续作终于上映,熟悉的演员集体亮相,在第一部中,潘斌龙塑造的"憨贼"李海根,智商不高却重情重义,就令人印象深刻。他将小人物的矛盾心理和温暖特质完美融合,最终凭借这个角色斩 ...

  • 泰国被停职总理佩通坦就其涉嫌违宪案出庭作证
    泰国被停职总理佩通坦就其涉嫌违宪案出庭作证

    当地时间21日,泰国被停职总理佩通坦就其涉嫌违宪一案在宪法法院出庭作证。当天泰国宪法法院传唤佩通坦本人及国家保障委员会秘书长出庭。根据泰国宪法法院的安排,此次传唤佩通坦出庭作证,属于审理案件的关键环节 ...

  • 时隔22年,吉林长春人民广场重新开放
    时隔22年,吉林长春人民广场重新开放

    7月20日,长春市轨道交通集团有限公司发布公告:2025年7月21日早8:00,人民广场地铁站D口将正式开通。开通后,乘客可从该口直达人民广场中心广场,通行效率进一步提升。公告称,该通道为24小时全天 ...

  • 北京全市普降大雨 共47站降水量超50毫米
    北京全市普降大雨 共47站降水量超50毫米

    据北京气象部门消息,7月19日20时至20日8时,北京全市平均降水量25.0毫米,已达大雨量级。城区平均16.9毫米,延庆、怀柔、密云、朝阳、大兴、通州共47站降水量超过50毫米;最大为怀柔西湾子90 ...

  • 疑似绯闻女友再曝光!杨瀚森连赞245次!第一时间评论!
    疑似绯闻女友再曝光!杨瀚森连赞245次!第一时间评论!

    约基奇中国行,你们都知道啦?昨天一个女生,在社媒上晒出了她参加约基奇中国行的照片。中国约基奇和塞尔维亚杨瀚森竟然罕见同框杨瀚森第一时间出现在评论区,点赞并回复到:“第一☝️!!!!”。细心的网友发现, ...

风汇聚星星眼要跟美瞳小花再婚了
风闻话伊朗同意与欧洲三国举行新一轮谈判
快话仅用 53 秒,商汤办公小浣熊就能助你化身高级打工人
风闻谈周渝民夫妇遭好友诈骗详情:误入代缴保费陷阱,三方被判担责
话集演员李明德已刑满释放,经纪人报平安称一切都好,此前因酒后砸车被判有期徒刑6个月
点台与马斯克“分手”不易?美媒:特朗普政府审查SpaceX合同后发现“离不开”

风集谈

更多 >