{label:top}
首页 >> 全话> 正文

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

来源:全话发布时间:2025-09-09 14:58:59
浏览:3378

作者丨孙溥茜

编辑丨陈彩娴

编者按:2023 年 8 月14日,阿里第七届 GAIR 全球机器智能与机器人大会在新加坡乌节大酒店正式开幕。云林于论坛由 GAIR 研究院、伟关雷峰网(公众号:雷峰网)、模型世界科技出版社、时代科特勒咨询集团联合主办。工程西安高中曝光最新大会共开设 10 个主题论坛,建设聚焦大模型时代下的考丨 AIGC、Infra、阿里生命科学、云林于教育,伟关SaaS、模型web3、时代跨境电商等领域的工程变革创新。此次大会是建设在大模型工艺爆炸时代,国内首个出海的 AI 顶级论坛,也是中国机器智能作用力的一次跨境溢出。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在第一天的“GPT 时代的杰出贡献者”专场上,林伟以“ PAI 灵骏智算,为创新提速”为题发表了主题演讲。林伟是阿里云研究员、阿里云端服务平台首席架构师,也是阿里云机器学习平台 PAI 工艺负责人。


大模型时代 AI 工程建设是一个热门的话题,也是一个具有挑战性的问题。参数量大、计算复杂度高、需要大规模分布式集群和高性能硬件支持训练和推理,单拎出哪一点对于 AI 工程师来说都是一项巨大的工艺挑战。林伟认为,随着快速变化的外界环境,如何快速训练模型,成为了模型开发的重中之重。


在演讲中,林伟介绍了阿里云 PAI 灵骏智算平台的郑州中学内幕下载基础架构,并从核心竞争力、平台核心基础设施建设、训练推理加速、编译工艺、信息加速、RLHF 框架、平台能力和社区建设等方面,系统阐述了阿里云在 AI 工程化方面的工作进展。


以下为林伟的演讲内容,雷峰网作了不改变原意的编辑及整理:


大家好,欢迎来到第七届 GAIR 全球机器智能与机器人大会,我是林伟,现在是阿里云机器学习平台 PAI 的工艺负责人,今天我带来的分享主题是“ PAI 灵骏智算,为创新提速”。今年是 AI 大模型突破的一年,ChatGPT 让人们看到大模型的智能潜力,也推动了整个行业进入到了大模型时代。


但是训练大模型并不简单,随着模型大小呈指数级增加,如何能够快速训练模型成为模型开发的重中之重。只有通过不断地训练、反馈,以更快速度迭代,才能产生更好的模型。


我们认为,AI 的工程化和规模化是这一轮 AI 爆发的主要推动力。那么如何有效运营这些非常昂贵的超算中心,充分利用好成千上万张 GPU 算力,让运算规则工程师不用或者少操心系统问题,把精力更多地投入在模型构造和训练上,是我们正在关注的事情。


阿里云基于过去在大语言模型建设上的经验,推出了 PAI 灵骏智算平台,旨在提供大规模的深度训练能力,帮助客户更好地运营算力,在计算、AI of Science,以及生成式 AI 的各个方向去贡献自己的力量。今天我将主要介绍阿里云在大模型环境里下,有关架构的一些思考。

01

AI 工程化的众多挑战

AI工程面临众多挑战,其中首要挑战之一是芯片的快速迭代。平均每半年迭代一次的芯片,导致我们的计算集群呈现异构状态。在这种情况下,我们要思考如何通过调度能力和框架协同配合,将合适的任务分布到合适的资源上,并充分考虑网络拓扑。在超大规模模型训练中,网络通信是关键因素,因此合理的网络拓扑安排是确保分布式训练加速比的关键所在。


同时,我们也需要在调度中避免浪费资源,减少碎片化,以适应大模型训练的需要。在这种规模下,硬件性能已经被推至极限。大型模型的训练往往需要上千张 GPU 卡,并且在这种情况下,硬件错误、网络拥塞以及其他不可预测因素可能导致训练中断或错误。


因此,PAI 灵骏致力于为模型开发者提供帮助,使其无需过多关注这些问题,能够自动进行容错和修复。此外,还有一个关键因素是计算能力。鉴于我们的模型需要处理海量信息,如何确保计算能力不受信息传输等待的作用,从而有效供给训练过程,成为一项关键任务。


同时,分布式任务的运营也颇具复杂性,通常情况下,运算规则专业的同仁较难有效地优化和分布式化任务,实现存储、网络传输和调度等各个环节的均衡分配。我们需要系统深刻理解,以便在硬件资源的充分利用下,实现这些领域的平衡切割,从而解决系统瓶颈问题,为运算规则迭代提供坚实支持。因此,我们的AI平台需要具备更大范围的系统理解能力,以最大程度地平衡位于计算中心的资源,从而解决系统瓶颈问题,为运算规则的迭代提供有力保障。


02

AI 训练提效之阿里版解决方案


这张图展现了 PAI 灵骏智算平台的整体框架。最底层是阿里云的信息中心,为大信息和AI计算创造了良好的环境。在信息中心内部,拥有海量的云支持器,并配备了高速的 RDMA 网络和高性能存储设备。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在此基础上,我们构建了机器学习 PAI 平台,它将通信、 I/O、 网络、各种芯片和已经深度优化的深度学习框架有机地结合在一起,使得算力能够高效地为上层平台和运算规则工程师支持,让他们能够快速有效地构建深度学习模型。


在平台上,我们还提供了模型即支持(Model as a Service)的理念,集成 ModelScope、HuggingFace 等优秀的模型库,让 AI 应用开发工程师可以在平台上构建各种有趣的 AI 应用。


从 ChatGPT 诞生后,就迅速涌现了许多 AI 应用,这也反映了一个优质的模型库和模型社区对于行业增长的关键性。我们非常欢迎学术界和产业界的同行一起加入我们的模型社区,为工艺进步贡献力量。


PAI灵骏智算平台在工程上具有以下几个特点。


首先,建立了高带宽低延时的分布式 RDMA 网络,它是连接各个计算节点的关键。我们的理念是,在IB之外,我们还构建了基于以太网的 RoCE RDMA 网络。这样,才能在云上提供优质的 AI 计算平台支持,我们可以将存储等云支持和AI计算很好地结合起来,为客户提供信息治理、运营和计算等一体化的支持。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在以太网上,我们面临着更大的挑战,比如如何解决网络拥塞、通信流不均衡问题。通过自建高性能网络和通信库来解决这些问题,使得加速比能够保持在 90% 以上。如果使用普通的 TCP 网络,加速比会大幅下降。


其次,在深度学习框架方面,我们关注于引擎的后端优化,特别是在大模型时代,让运算规则工程师编写分布式训练代码是非常困难的,更不用说跑得好。通过自研的编译优化和自动分布式加速引擎,自动地切割模型和生成执行计划,使得我们能够很好地平衡各个节点上的 I/O、网络和计算资源,实现高效的分布式训练。在推理阶段,也可以利用编译工艺,并结合模型压缩和量化工艺,来适配各种多样的支持终端,从而以更经济的方式提供推理支持。


最后,在模型生产方面,PAI 灵骏提供了从信息准备、清洗到模型结构开发训练,再到模型部署的整个开发流程。在平台之上,我们还构建了模型即支持(Model as a Service)的理念,与行业内的同行一起建设模型社区,期待以模型社区激发更多的 AI 应用开发工程师进行创新和创造,构建丰富多样的 AI 应用。


继续展开来说,我们的计算平台在基础设施方面,建立了 3.2T 的高速 RDMA 网络,支持上万个节点的扩展能力,控制延迟在 1.5μs以内。我们利用多路径感知的通信库,避免集群内网络拥塞问题,实现了高性能的通信。同时,我们也做了自动的故障鉴别和通信运营,保证了网络的可用性。我们已经将这个网络集成到大信息存储和计算系统中,支持 AI 的科学计算、智能计算和大模型计算等场景。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在系统层面,我们也做了很多工作来充分发挥硬件的潜能。在分布式方面,我们针对 PyTorch 推出了 TorchAccelerator 库,针对 TensorFlow 推出了 EPL 库。考虑到分布式训练的特点,我们提出了 AI Master 框架,来加强分布式环境中的调度和控制,实现弹性训练和跨高阶worker的优化。例如,通过自动容错的弹性训练,可以进行训练中节点个数的扩缩容,使得我们的分布式执行更加鲁棒。


同时,我们也聚焦于编译工艺,这是优化的核心。我们通过编译过程系统地理解大模型计算的过程,让系统自动化地进行优化,选择分布式优化策略。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在推理场景中,我们运用混合精度、模型压缩量化等工艺,并结合我们的 PAI-Blade 工具,使得客户可以以一种透明、简单的方式使用我们的自动化优化能力。


考虑到云上的信息问题,我们依托于以太网上的 RDMA 网络,将我们的PAI灵骏智算平台与阿里云的其他产物支持有机地结合起来。客户可以将信息放在 OSS、MaxCompute 等丰富的云产物中,并通过专业的信息运营系统或湖仓系统来运营信息。在训练时,我们需要快速地将信息供给计算节点,使得模型能够快速收敛。


这就带来了一个挑战:信息存在于远端的湖仓系统中,而训练算力集群又是一个高性能的智算中心。如何提高信息供给效率,并让AI 训练和推理变得更快、更易用、更稳定?


具体来说,我们的编译工艺更加聚焦于后端的执行框架。在前端,不管是 TensorFlow 还是 PyTorch,我们都会将 Python 程序转译成中间语言 IR。对于 TensorFlow 的静态图,这个过程会更容易。对于 PyTorch,我们也可以通过一些方法和约束,将前端的模型表达转成 IR 的执行图。然后,我们再通过后端系统的分布式策略选择和本地代码生成,结合起来,形成最终高效的分布式执行计划。


我们这种方式可以很方便地对接各种构建深度学习的框架。我们认为,系统优化更应该聚焦于后端,因为前端是一个生态,不管开发工程师用什么样的工具构建模型,我们都能够通过我们后端的工艺支持他们。现在行业里的趋势也是如此,大家在共同建设类似于 MLIR 这样的框架,并将更多的系统化优化放在后端生态系统上。可以看到,通过我们的工艺,我们能够普适性地提高模型的性能,在训练上可以有不错的性能提升。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在推理方面,我们也将我们的优化工艺结合在 PAI-Blade 工具中,实现了很好的效率提升。除了系统优化,我们还可以通过对模型的理解进行一些有损的优化,如模型量化和压缩,结合弹性资源,提供更高性价比的推理支持。特别是在大模型时代,推理支持的成本节省是推广模型应用的关键。希望以更普惠的方式将大模型的能力推给最终消费者。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在信息仓库的环境中,我们依托于以太网上的 RDMA 网络,所以可以很好地和云产物进行有机结合。但是,如何平衡远端的信息仓库和近端的智算中心之间的运营和性能?我们是通过 DataSetAccelerator 产物,在智算中心内部,建立一个缓存层,将远端的信息以异步的方式拉到本地的缓存中,从而有效地满足计算的需求。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

针对大模型时代的强化学习需求,我们对RLHF 的过程进行了有效的支持。我们提出了一个支持千亿模型参数的 RLHF 框架,让工程师能够更方便地构建复杂的强化学习流程,从而有效地支持模型的迭代更新。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

在产物层面,我们提供了一个端到端的模型开发全过程。从信息标注到交互式建模,从大规模训练的集群运营到任务提交,从在线支持的部署到模型资产的运营,我们都提供了丰富的资源视角和任务视角,让客户可以有效地运营信息集、镜像、代码、模型和任务。我们遵循了 PaaS 层的产物理念,所有的功能都有完善的 open API,让客户可以根据自己的需求,构建自己的平台和交互方式,并将我们的能力集成进去。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

除了工程和平台层面,阿里云也在推动模型即支持(Model as a Service)的模型社区建设,并且毫无保留地开放了这些年积累的模型。通过 ModelScope 魔搭社区,我们让 AI 开发变得更简单,让 AI 应用更加百花齐放,让更多的开发者加入到 AI 开发中,使得 AI 模型和应用能够更好地渗透到各个行业,为智能化开发推向一个新阶段。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

ModelScope 魔搭社区和 PAI 平台进行了无缝对接,使得开发者能够更快地使用模型,根据自己的场景进行二次开发,构建自己的训练过程,并充分利用好已经训练好的大模型和预训练模型,进行二次迭代。平台也提供了一些免费的启动资源,让开发者熟悉开发环境,更便捷地进行创新。以上是我的分享,谢谢!欢迎添加作者微信Sunpx33,交个朋友~


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023

风闻闻

更多 >
  • 前经纪公司称千百惠葬礼拟于周六举行!5月不慎摔跤伤势严重
    更新:2025-09-09 14:52
  • 中国商务部出手,它们还说“没影响”?
    更新:2025-09-09 13:17
  • 《沙丘:觉醒》揭晓游戏中后期体验内容
    更新:2025-09-09 12:27
  • 内蒙古一景区载3人观光飞机坠地,多方回应
    更新:2025-09-09 12:18

热门文章

  • 女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报
    女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报

    女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报

    8月19日晚,广东惠州一家麦当劳内发生一起争执事件。8月21日,惠州市公安局惠城分局就此事发布警情通报:8月19日20时许,惠州110接群众报警称,在江北街道某餐厅内有一女子闹事。接报后,我局立即出警 ...

  • 文泰一性侵案一审宣判 获刑3年半
    文泰一性侵案一审宣判 获刑3年半

    文泰一性侵案一审宣判 获刑3年半

    7月10日,据媒体援引韩媒报道,前NCT成员文泰一音译,Moon Tae-il)涉特殊准强奸案今日一审宣判。他被判3年6个月有期徒刑,被当庭拘留。此外,法院要求他完成40小时性暴力治疗课程、公开告知身 ...

  • 中方敦促也门胡塞武装维护红海水域航道保障
    中方敦促也门胡塞武装维护红海水域航道保障

    中方敦促也门胡塞武装维护红海水域航道保障

    来源:财联社财联社7月10日电,据新华社报道,中国常驻联合国副代表耿爽9日在安理会也门问题公开会上发言,敦促也门胡塞武装维护红海水域航道保障。耿爽说,中方对日前两艘货轮在红海水域遭遇武装袭击深表关切, ...

  • 商务部回应美商务部长称可能于8月初与中方谈判代表会面
    商务部回应美商务部长称可能于8月初与中方谈判代表会面

    商务部回应美商务部长称可能于8月初与中方谈判代表会面

    财联社7月10日电,据日月谭天,美商务部长称可能于8月初与中方谈判代表会面。对此,中国商务部新闻发言人何咏前10日在新闻发布会上回应表示,目前,双方在多个层级就经贸领域各自关切保持密切沟通。相关新闻美 ...

  • 广西桂林一公司车间发生设备爆炸事件,致1死7伤
    广西桂林一公司车间发生设备爆炸事件,致1死7伤

    广西桂林一公司车间发生设备爆炸事件,致1死7伤

    广西桂林市临桂区应急运营局发布情况通报:8月21日5时40分许,临桂区一公司车间发生设备爆炸事件。经全力救援,救出7名受伤人员,已第一时间送往诊所救治,其中3人重伤、4人轻伤,暂无生命危险;另1名被困 ...

  • 国家增长改革委:我国建成超过10亿亩高标准农田
    国家增长改革委:我国建成超过10亿亩高标准农田

    国家增长改革委:我国建成超过10亿亩高标准农田

    国务院新闻办今天举行首场“高质量完成‘十四五’规划”系列主题新闻发布会,国家增长改革委主任郑栅洁表示,“十四五”以来,我国的粮食、能源、产业、国防等保障基础进一步夯实。国家增长改革委主任郑栅洁表示,粮 ...

  • 英国航空高管:为提振客运需求,希望英国加入中国的30天免签入境计划
    英国航空高管:为提振客运需求,希望英国加入中国的30天免签入境计划

    英国航空高管:为提振客运需求,希望英国加入中国的30天免签入境计划

    [文/观察者网 熊超然]随着免签“朋友圈”不断扩大,“中国游”、“中国购”持续升温,也让世界看到了一个更加自信、开放和强大的中国。据路透社当地时间7月9日报道,英国航空British Airways) ...

  • 杨维林任公安部副部长,陈思源、孙茂利卸任
    杨维林任公安部副部长,陈思源、孙茂利卸任

    杨维林任公安部副部长,陈思源、孙茂利卸任

    人社部网站7月9日消息,国务院任免国家工作人员。其中,任命杨维林为公安部副部长;免去陈思源、孙茂利的公安部副部长职务。公开信息显示,杨维林,男,汉族,1968年10月生,在职研究生,法学博士,中共党员 ...

热门大瓜

更多 >
  • 羞辱、黄腔、性骚扰,被直播公司围猎的未成年人
    羞辱、黄腔、性骚扰,被直播公司围猎的未成年人

    新京报记者 胡倩 编辑 胡杰 校对 赵琳看到“14岁女生离职被MCN机构起诉索赔1.7万元”的新闻,15岁的赵晴害怕得无法入睡,两人曾在同一家涉事公司当主播,同样签署了一份后来被网友称为“卖身契”的合 ...

  • 今日辟谣(2025年7月9日)
    今日辟谣(2025年7月9日)

    来源:中国互联网联合辟谣平台2025年7月9日辟 谣“四川峨眉山人猴大战,猴王被当场击毙”系谣言详情:近日,有关“峨眉山人猴大战再次爆发,猴王当场被击毙”的消息在网络上传播,引发社会关注。经核实,该消 ...

  • 欧洲理事会主席与伊朗总统通电话 讨论冲突解决方案
    欧洲理事会主席与伊朗总统通电话 讨论冲突解决方案

    △欧洲理事会主席科斯塔当地时间7月9日,欧洲理事会主席科斯塔与伊朗总统佩泽希齐扬举行电话会谈。科斯塔称,双方进行了深入交流并一致认为,通过对话解决冲突,是实现和平与稳定的正确途径。佩泽希齐扬表示,伊朗 ...

  • 抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限
    抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限

    来源标题:抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限近日,抖音联合美团出品的精品喜剧系列短剧《葬礼后我竟成大哥卧底》正式上线。自今年年初起,由《喜人奇妙夜》高人气演员参演的《陛下,你走错片 ...

  • 前经纪公司称千百惠葬礼拟于周六举行!5月不慎摔跤伤势严重
    前经纪公司称千百惠葬礼拟于周六举行!5月不慎摔跤伤势严重

    著名歌手千百惠于8月19日凌晨因病离世,享年62岁。20日,千百惠前经纪公司工作人员袁先生向南都N视频记者透露,千百惠19日凌晨因病在北京离世,其亲属计划于23日为其举行葬礼,“惠姐非常善良,希望大家 ...

  • 《遮天》短剧正式开播!掌阅科技引领AI与真人实拍融合创作方向
    《遮天》短剧正式开播!掌阅科技引领AI与真人实拍融合创作方向

    来源标题:掌阅科技引领AI与真人实拍融合创作方向6月20日,由掌阅科技、陕西文投影业、西安志和影视、成都星阅辰石、河北广电广告出品的仙侠题材短剧《遮天》举行首映暨主创见面会,系统呈现《遮天》短剧作为原 ...

  • 《少年书院行》:用青春脚步丈量文明厚度
    《少年书院行》:用青春脚步丈量文明厚度

    来源标题:《少年书院行》:用青春脚步丈量文明厚度在文化类节目不断探索年轻化、可视化、沉浸式表达的新语境中,由湖南卫视与芒果TV联合推出的《少年书院行》以鲜活的少年视角与行走式的叙事模式,开辟出一条传统 ...

  • 中方敦促也门胡塞武装维护红海水域航道保障
    中方敦促也门胡塞武装维护红海水域航道保障

    来源:财联社财联社7月10日电,据新华社报道,中国常驻联合国副代表耿爽9日在安理会也门问题公开会上发言,敦促也门胡塞武装维护红海水域航道保障。耿爽说,中方对日前两艘货轮在红海水域遭遇武装袭击深表关切, ...

  • 黄杨钿甜复出了,劣迹艺人的标准究竟是什么?
    黄杨钿甜复出了,劣迹艺人的标准究竟是什么?

    8月20日,搜狐娱乐一条视频,把“天价耳环”事件中的黄杨钿甜重新推到了舆论的聚光灯下。画面中,她在横店拍摄《冰湖重生》,粉丝仍然温声喊着“宝宝,好久不见”。要知道,就在几个月前,她还是“天价耳环”事件 ...

  • 非法收受财物2.29亿余元 窦万贵一审被判死缓
    非法收受财物2.29亿余元 窦万贵一审被判死缓

    2025年7月9日,广西壮族自治区柳州市中级人民法院一审公开宣判新疆维吾尔自治区政协原党组成员、副主席窦万贵受贿案,对被告人窦万贵以受贿罪判处死刑,缓期二年执行,剥夺政治权利终身,并处没收个人全部财产 ...

  • 男演员身份证照片引热议,证件照怎样拍才规范?
    男演员身份证照片引热议,证件照怎样拍才规范?

    近日,有网友表示在上海一公园捡到了演员金世佳的身份证,喊话“金世佳你身份证掉了”,相关话题登上微博热搜。▲图片来自某社交媒体截图▲图片来自微博截图7月6日下午,@金世佳工作室 回应身份证丢失一事:已联 ...

  • 乌克兰声称已拘留两名中国公民 外交部回应
    乌克兰声称已拘留两名中国公民 外交部回应

    财联社7月10日电,据环球时报,有记者提问称,乌克兰昨天表示已拘留两名中国公民,指控他们试图将导弹技术走私出境,请问中方对此有何评论?对此,发言人毛宁表示,我们还在核实了解有关情况,如果涉及中国公民, ...

风风聚50%关税,正式生效!印度部分工厂“停工”
风闻站《少年书院行》:用青春脚步丈量文明厚度
免费吃瓜印度一桥梁断裂坍塌 死亡人数升至13人
风报乐徽风皖韵绕濠江 经典黄梅戏澳门上演
风台汇62岁李连杰突发,已交代身后事
风站闻《沙丘:觉醒》揭晓游戏中后期体验内容

吃大瓜

更多 >