{label:top}
首页 >> 风台快> 正文

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

来源:风台快发布时间:2025-09-09 14:59:03
浏览:86

作者丨赖文昕 马蕊蕾

编辑丨陈彩娴

大模型浪潮一起,英伟被视为是具件大模型最佳载体的机器人,热度也随之飙升,身智「具身智能」这个在1950年由艾伦·图灵提出的难点概念,时隔75年再次成为了 AI 界的不硬宠儿。

2024年才过去不到半年,英伟深圳理工大学爆料推荐AI 圈就迎来了 Sora、具件Claude 3、身智Devin、难点GPT-4o 等数颗重磅炸弹,不硬文生影片、英伟AI Agent(智能体)、具件多模态等多个方向都有了显著的身智进展。但显然,难点与屡爆惊喜的不硬模型、应用不同,更「硬」的「具身智能」在产业界掀起商业化与资本狂潮的同时,也面临着需要冷静的现实:大模型并未在行业中得到广泛应用。

那么,代表「大脑」的大模型如何能让机器人真的拥有「智能」?通往 AGI 的路何时能从数字世界逐步扩展到物理世界?

在 5 月 29 日于旧金山召开的一场 GenAI 峰会上,英伟达高级研究科学家、具身智能负责人 Jim Fan 对这些问题展开了深刻的思考。

Jim Fan 在斯坦福大学视觉实验室获得了博士学位,师从李飞飞教授。他的研究领域十分广泛,包括了多模态基础模型、强化学习以及计算机视觉,曾实习于谷歌云AI、OpenAI、百度硅谷机器智能实验室等知名组织。

作为本次 GenAI 峰会主论坛第一位主题分享嘉宾,苏州学院偷拍最新Jim Fan 分享了对具身智能的见解与对其未来趋势的看法,内容涉及英伟达的最新进展,包括 Mine Dojo、Voyager、MetaMorph 和 Eureka。

以下是 Jim Fan 本次主题演讲的内容,AI科技评论做了不改变原意的编辑:


从 Minecraft 到 AI Agent

Minecraft 游戏及其社区具有丰富的信息,这使其成为一个真正的开放式 AI 游乐场。在这个平台上,我们见证了许多令人印象深刻的成果。例如,Minecraft 拥有4000万活跃玩家,这为 AI 研究提供了庞大的信息基础。

我们的研究系统由三个主要部分组成:一个模拟器、一个信息库和一个智能体(Agent)。为了充分挖掘 Minecraft 在 AI 研究方面的潜力,我们设计了一个模拟器 API。

我们认为最好的学习方法是通过信息来学习,这样可以帮助智能体捕捉到像建造房屋这样的抽象概念。此外,我们收集了一个横跨 Minecraft 三个部分的互联网技能知识库。难以想象,有人在维基上逐页列出了 Minecraft 中所有事物成千上万种的配方。

利用这些资源,我们基于对比学习的理念训练了一个编码器模型,称为 Mine-CLIP 模型。简单来说,Mine-CLIP 模型可以学习影片和描述影片中动作的文本之间的关联。

在 Minecraft 中,智能体在探索过程中会生成影片片段,然后将其编码并发送给 Mine-CLIP 模型来计算分数。关联度越高,分数就越高,这实际上就是一个强化学习运算规则的奖励函数。

我们的智能体经过学习后,能够在各种任务中展示出色的行为。然而,目前的局限性在于,智能体无法自主发现新事物,我们必须手动决定一个任务提示,然后每次针对不同的提示运行训练。

在 Minecraft 中,我们训练出一个名为 Voyager 的通用型智能体,它可以在没有任何人工干预的情况下连续玩几个小时的游戏。Voyager 能够探索地形,使用各种材料与怪物战斗,制作数百种配方,并解锁不断扩展的技能树。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

Voyager 的自我反思机制有三个来源:JavaScript 执行引擎、智能体状态和世界状态。

一旦一项技能成熟,Voyager 就会将程序存储到技能库中。你可以将技能库看作是一个代码库,完全由 Voyager 通过试验和错误编写而成。将来当 Voyager 面临类似情况时,它只需从代码库中检索技能并执行它。

Voyager 有一个高级指令,那就是寻找尽可能多的独特物品。

Voyager 本身会执行一个指令,即不断寻找并解决难度逐渐增加的新奇挑战。

从 Minecraft 地图的鸟瞰图来看,最大的橙色圆圈代表了 Voyager 与许多基线方法相比所走的距离。

因为 Voyager 非常喜欢旅行,所以我们给它起名叫"旅行者"。与基线方法相比,Voyager 能够掌握更多的技能,但它仍然只能学会如何控制一个身体。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」


机器人是用「词汇」写成的「句子」

那么,我们能否有一个可以在不同载体上运行的运算规则呢?

我们创建了一个基础模型 Metamorph,该模型不仅能控制一个机器人,而且能控制数千个具有不同手臂和腿部配置的机器人。

Metamorph 可以丝滑地适应这些机器人的物理结构,所以我们能很直观地用一个「词汇」来描述机器人的身体部位,这样每个机器人本质上就是用这些「词汇」写成的「一句话」。

简单来说,就是把它们转换为 tokens,序列本身作为一个「句子」来描述机器人的形态和运动学特性,就能拥有具有不同数量关节和配置的机器人。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

我们用一个巨大的 Transformer 模型来控制这些机器人,它就叫「Metamorph」。但与 ChatGPT 不同,MetaMorph 写出的不是文本,而是「身体」里每个关节上的运动控制。

我们想实现跨形态的通用策略,便把所有「句子」组合在一起,训练一个大型的多任务网络。为了加强训练这些能力,我们教机器人在或平坦或复杂的地形中行走。

在我们的实验中可以看到, Metamorph 可以控制数千种不同的机器人。更有趣的是,如果我们用更复杂的配置来扩展机器人,那么它能够推广到训练期间从未见过的机器人形态。

我设想有一天,Metamorph2.0 将能够泛化到机器手、人形机器人、狗、无人机甚至更多领域。与 Voyager 相比,Metamorph在多体控制方面迈出了一大步。

然后让我们将一切再提升一个层次,即在不同的环境之间转移技能和载体。

Isaac Sim 的最大优势是以比实时快一千倍甚至更快的速度运行物理仿真,让角色在短短的3天内就经历了10年高强度训练,学会令人印象深刻的武术。

光线追踪工艺则通过硬件加速,帮助模拟工艺跨越了“恐怖谷”效应,实现了更高级别的逼真度,这对于渲染复杂世界和训练计算机视觉模型至关关键。

现在,我们可以通过硬件加速光线追踪工艺来渲染非常复杂的世界,照片真实感可以帮助训练计算机视觉模型,而这些模型将成为每个 AI Agent 的眼睛。

像这个五指机器人,Eureka 的第一步是将环境代码和任务描述作为上下文传递给 GPT-4,这里的任务是写自然语言,使笔旋转到目标位置。Eureka 对奖励函数进行采样,通常这是由非常熟悉物理模拟的专家来设计的。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

现在,Eureka能够自动执行这一过程。一旦确定了奖励函数,便采用强化学习方法,通过大量的试错迭代来最大化该函数。一次完整的训练运行大约需要20分钟。

完成后,GPT-4 会生成多个奖励函数组件,Eureka 会传递自动反馈,并要求语言模型对结果进行自我反思,这样它就可以提出更好的奖励函数来更好地解决问题,继而循环并重复。

我们发现,Eureka 实际上甚至可以胜过一些有经验的工程师。


从 Foundation Agent 到具身智能

接下来,我们面临一个关键问题:如何将虚拟世界中的成果转移到现实世界呢?

这就要提到一个名为「域随机化」(domain randomization)的概念。其基本思想在于,如果一个模型在一万个不同的模拟环境中接受训练,并且这些环境中的重力、摩擦力、物体重量和大小都有所不同,那么该模型便很有可能能够适应并泛化到我们的现实世界中。

比如我们模拟一只机器狗在向前奔跑,能够将模拟环境中的这一行为零样本地转移到现实世界中,让一个真实的机器狗,也在进行向前奔跑的动作。同样,模拟中的手旋转立方体的动作也可以直接在现实世界中呈现。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

然而,硬件的限制使我们未能在现实世界中复制笔旋转的动作。尽管如此,我们还是成功地实现了机器狗在瑜伽球上行走的场景,这是无法完全模拟的,因为瑜伽球的弹性和可变形特性难以复制。我们通过不断的随机化尝试,最终找到了一个有效的解决方案。

值得注意的是,Eureka 是一个通用的方法,它成功地在高级推理和低级运动控制之间架起了桥梁。

Eureka 采用了一种混合梯度架构的范式,其中一个大型语言模型(LLM)负责编写奖励函数,这代表了高级推理的过程。然后,这个奖励函数通过强化学习来指导另一个较小的神经网络,这就是所谓的双循环设计。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

Eureka 通过简单地改变奖励函数,就能将模拟环境的配置应用到真实世界中,实现了从模拟到现实的无缝过渡。

我设想着这样一个未来: Eureka ++ 能够为我设计任务程序,甚至构建起整个模拟环境。想象一下,当我在度假放松时,Eureka ++ 正勤勤恳恳地完成所有的开发工作,自动化整个机器人训练流程。而我度假归来,惊喜地发现机器人已经被训练得得心应手。

这个设想的核心是一种通用运算规则,它能够进行简单的编码。随着我们在工艺上的不断探索,我们终将实现一个能够泛化到所有三个维度上的单一模型,我将这个模型称为「Foundation Agent」(基础智能体)。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

我相信,训练这样的基础智能体将与训练 ChatGPT 非常相似,所有的语言任务都可以通过语言来表达,比如输入和输出,ChatGPT 只需在大量的文本信息上进行扩展训练。

基础智能体的工作方式也与之类似。它接受一个体现规范和语言指令,然后输出相应的动作。我们只需在广泛的现实场景中进行大规模扩展。

世界上所有的工具、设备、建筑,包括房屋和餐馆,都是为了适应人类而设计的。原则上,只要有足够先进的仿人硬件,它就能完成任何未经训练的人类能够做到的事情。因此,我们的目标是开发出最通用的硬件。现在正是追求这一目标的最佳时机,因为我们观察到,随着时间的推移,仿人机器人的制造成本正在指数级下降。

就在两周前,宇树公司(Unitree)宣布他们的 G1 机器人的售价仅为3万美元(9.9万人民币)。而傅利叶智能(Fourier Intelligence)公司的 GR-1 机器人能够通过原始影片模仿人类跳舞,并且保持平衡。当然,在英伟达转型为 AI 公司之前,它是一家图形公司,所以模拟工艺实际上是我们的强项。

在 Isaac Lab 中,我们进行大规模的并行模拟,三天的时间相当于十年的训练。我们希望在模拟中获得的技能能够转移到现实世界的应用中。

是什么让一只猫成为猫?这是一个深刻的问题。目前,我们还没有机器人能在敏捷性上与猫相媲美。猫作为具身智能体,拥有卓越的感官运动循环,反应迅速,甚至超过了人类。

我们能否有一天制造出像猫一样灵活,甚至更胜一筹的机器人?这是一个值得深思的问题。

随着成本的降低和工艺的进步,我相信这一天终将到来。仿人机器人的成本肯定会下降,将趋向于原材料的成本。因此,硬件并不会成为限制因素。硬件目前还不够完善,但它会迅速改进,并且改进的速度正在加快。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

真正的挑战在于机器智能。目前还没有人找到最佳的方法来构建一个基础智能体。我有一些初步的想法,但这些都还在探索阶段。即使你拥有成千上万的 GPU,你也不清楚应该在哪些方面进行扩展:是模拟环境、互联网信息,还是来自真实机器人的由人类收集的远程操作信息?

机器智能将成为限制我们前进的关键因素。谁能首先解决这个 AI 挑战,谁就能在市场上占据一席之地。


本文雷峰网(公众号:雷峰网)作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业增长趋势,欢迎添加交流,互通有无。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

吃瓜头条

更多 >
  • 伊朗军队举行导弹演习
    更新:2025-09-09 13:58
  • 多元业态赋能文旅 “一龄·花溪时光里”成贵阳避暑节亮点
    更新:2025-09-09 13:55
  • 王栎鑫演唱会后台同款音响到底怎样?全面带你真实测评了解
    更新:2025-09-09 13:43
  • 袁娅维、刘彬濠、陆宇鹏加盟 2025乐圃音乐空间公益音乐会奏响“自然乐章”
    更新:2025-09-09 12:44

热门文章

  • 今日最佳:我到底有多帅?
    今日最佳:我到底有多帅?

    今日最佳:我到底有多帅?

    来源微博:@迷惑行为大赏有一说一,长得太精致了。 ...

  • 爱奇艺“大片计划”重磅电影《捕风追影》首映口碑爆棚,成龙张子枫梁家辉此沙银幕交锋引爆期待
    爱奇艺“大片计划”重磅电影《捕风追影》首映口碑爆棚,成龙张子枫梁家辉此沙银幕交锋引爆期待

    爱奇艺“大片计划”重磅电影《捕风追影》首映口碑爆棚,成龙张子枫梁家辉此沙银幕交锋引爆期待

    来源标题:爱奇艺“大片计划”重磅电影《捕风追影》首映口碑爆棚,成龙张子枫梁家辉此沙银幕交锋引爆期待8月3日,爱奇艺“大片计划”重磅之作——动作犯罪爽片《 ...

  • 全球国际小姐冠军萧纤纤 宣布成为桑塔克玛品牌代言人
    全球国际小姐冠军萧纤纤 宣布成为桑塔克玛品牌代言人

    全球国际小姐冠军萧纤纤 宣布成为桑塔克玛品牌代言人

    来源标题:全球国际小姐冠军萧纤纤 宣布成为桑塔克玛品牌代言人8月5日,内蒙古桑塔克玛食品有限公司正式宣布,携手全球国际小姐冠军、实力演员萧纤纤,成为桑塔克玛品牌代言人。助力品牌市场影响力进一步提升吗, ...

  • 备受瞩目!第十六届中华少儿电影配音推广展示活动总决选在京举办
    备受瞩目!第十六届中华少儿电影配音推广展示活动总决选在京举办

    备受瞩目!第十六届中华少儿电影配音推广展示活动总决选在京举办

    来源标题:备受瞩目!第十六届中华少儿电影配音推广展示活动总决选在京举办 8月9日,由中国电影博物馆、中国电影家协会、中国儿童少年电影学会、中国电影基金会共同主办的第十六届中华少儿电影配音推广展示活动总 ...

  • 巴基斯坦季风暴雨已致750人死亡
    巴基斯坦季风暴雨已致750人死亡

    巴基斯坦季风暴雨已致750人死亡

    巴基斯坦国家灾害运营局20日说,过去24小时,强季风降雨引发的灾害造成该国至少43人死亡、11人受伤。自6月26日进入雨季以来,季风暴雨已在巴全国范围内造成750人死亡。据巴国家灾害运营局最新发布的统 ...

  • 《最美中轴线》直播:张嘉元带你逛中轴线,在中医智慧与咖啡香中触摸古今温度
    《最美中轴线》直播:张嘉元带你逛中轴线,在中医智慧与咖啡香中触摸古今温度

    《最美中轴线》直播:张嘉元带你逛中轴线,在中医智慧与咖啡香中触摸古今温度

    来源标题:《最美中轴线》直播:张嘉元带你逛中轴线,在中医智慧与咖啡香中触摸古今温度北京时间APP《最美中轴线》特别直播企划中,张嘉元走进有153年历史的白塔寺药店,带领观众探秘这座始建于1872年的中 ...

  • 爱奇艺开启《苍兰诀》三周年限免,《浮图缘》《云之羽》福利同步解锁
    爱奇艺开启《苍兰诀》三周年限免,《浮图缘》《云之羽》福利同步解锁

    爱奇艺开启《苍兰诀》三周年限免,《浮图缘》《云之羽》福利同步解锁

    来源标题:爱奇艺开启《苍兰诀》三周年限免,《浮图缘》《云之羽》福利同步解锁“诀人”速来集合!在爆款剧集《苍兰诀》即将迎来开播三周年之际,爱奇艺特别推出限免活动,自8月5日0点至 ...

  • 多元业态赋能文旅 “一龄·花溪时光里”成贵阳避暑节亮点
    多元业态赋能文旅 “一龄·花溪时光里”成贵阳避暑节亮点

    多元业态赋能文旅 “一龄·花溪时光里”成贵阳避暑节亮点

    来源标题:多元业态赋能文旅 “一龄·花溪时光里”成贵阳避暑节亮点8月8日,一龄集团21周年庆典季暨“我爱我家”健康文旅节开幕仪式在贵阳市花溪区盛大举行,备受瞩目的文旅融合项目& ...

风点聚

更多 >
深趣中美俄战略三角,有新动向
快报男子组合NouerA中国媒体发布会沪上圆满落幕
风点新奇幻新剧《带剑女孩》热播中 洪凌许瑞奇都市行侠仗义
爆集“学雷锋‘庆八一’弘扬伟大抗战精神 军地书法名家笔会暨红色文化之旅”活动圆满举行
风闻深50%关税,正式生效!印度部分工厂“停工”
风闻《东极岛》:在历史真实与艺术创作间找平衡

独讯

更多 >