返回博客列表

英伟达开源机器人技能库深度解析:Jim Fan 说的『范式变了』,到底是什么意思?

2026-07-04T12:00:00+08:00
英伟达具身智能机器人Jim Fan技能库开源AI

英伟达开源机器人技能库深度解析:Jim Fan 说的『范式变了』,到底是什么意思?

2026 年 7 月,具身智能领域扔了一颗原子弹。

英伟达开源了一个全新的机器人技能库,英伟达 AI 科学家 Jim Fan 在社交媒体上只说了一句话,就引爆了整个 AI 圈:

"范式变了。"

这四个字,分量千钧。

大多数人看到这个新闻的第一反应是:"哦,英伟达又开源了一个机器人的东西。"但很少有人真正意识到,这次开源的意义,可能远不止是"又一个开源项目"这么简单。

这篇文章,我来带你深度解析:这次开源到底是什么?Jim Fan 说的"范式转变"到底指什么?为什么说这是具身智能领域的一个里程碑?以及它将如何改变我们对机器人和 AI 的认知。


先搞清楚:这次开源的到底是什么?

在讲范式转变之前,我们先把最基本的问题搞清楚:英伟达这次开源的到底是什么东西?

简单说:这是一个机器人的"技能库"。

什么叫技能库?想象一下:

以前你想让机器人做一个"拿起杯子"的动作,你需要:

  1. 收集几千甚至几万次机器人尝试拿杯子的数据
  2. 找人标注这些数据
  3. 从零开始训练一个神经网络
  4. 调试 reward function
  5. 在模拟器里训练几个星期
  6. 迁移到真实机器人上
  7. 再调几个月的参数
  8. 最后它可能还是经常拿不起来

现在你只需要:

from nvidia_robot_skills import grasp

# 直接调用拿杯子的技能
result = grasp(target_object="cup", force="gentle")

没了。

就像你调用一个普通的 API 一样。

所有那些训练、调试、迁移、优化的脏活累活,英伟达都已经帮你做完了。

这就是技能库。

它里面包含了大量预训练好的、经过验证的机器人操纵技能:

  • ✅ 各种物体的抓取和放置
  • ✅ 倒水、倒咖啡
  • ✅ 开门、开门把手
  • ✅ 按按钮、拨开关
  • ✅ 折叠衣服
  • ✅ 擦桌子
  • ✅ 组装简单的零件
  • ✅ 等等等等

而且这些技能不是只能在某一种特定的机器臂上用。它们是通用的,可以适配各种主流的机器人硬件。

这就是 Jim Fan 说的"范式变了"的第一层意思:机器人开发,从"任务专项编程",变成了"技能通用复用"。


为什么这是范式转变?

要理解"范式转变"这四个字的分量,你得先理解之前的范式是什么样的。

让我们回顾一下,在这个技能库出现之前,机器人开发是怎么做的:

旧范式:任务专项编程

每个任务,从头开始:

  1. 定义任务:我要让机器人做 X
  2. 收集数据:专门为这个任务收集成千上万次演示
  3. 训练模型:从零开始训练
  4. 调参:调 reward,调训练参数,调各种东西
  5. 迁移:从模拟器迁移到真实世界,再调一遍
  6. 部署:终于能用了

然后你想做第二个任务 Y? 很好,上面所有步骤,重来一遍。

每个任务都是一个孤岛。A 任务中学到的东西,几乎不能用到 B 任务上。你做了 10 个任务,你就做了 10 次几乎完全一样的重复劳动。

这就是为什么机器人发展这么慢。因为每个新应用,都相当于重新发明一遍轮子。

新范式:技能通用复用

有了技能库之后呢?

你想做一个"给客人端咖啡"的机器人应用:

  1. 从技能库中调用 grasp() 技能,拿起咖啡杯
  2. 从技能库中调用 move_to_target() 技能,移动到客人旁边
  3. 从技能库中调用 place() 技能,把杯子放在桌子上
  4. 写一点点胶水代码,把这三个技能串起来

没了。

原来可能需要一个 5 人团队做 6 个月的工作,现在一个熟练的工程师,一周就搞定了。

而且最重要的是:这些技能是被成千上万个应用共享的。每有一个人用这些技能,每有一个人改进这些技能,所有人都能受益。

这就像编程领域从汇编语言进化到高级语言的过程。

  • 以前写代码:你需要自己操作寄存器,自己管理内存,自己实现每个算法
  • 现在写代码:你 import 一个库,调用一个函数,有人已经帮你把所有底层的事情做好了

机器人领域,正在经历一模一样的转变。

这就是范式转变。这就是为什么 Jim Fan 说这四个字的时候,整个行业都为之震动。


技术架构深度解析

这个技能库不是凭空变出来的。它背后是英伟达在具身智能领域过去几年所有技术积累的集大成者。

让我们看看它的技术架构到底是什么样的:

第一层:基础模型层

整个技能库的底座,是英伟达的通用具身智能基础模型。

这个模型,是用几百万次的各种机器人操纵数据预训练出来的。它学习到的不是某个特定任务的解法,而是物理世界的通用规律

  • 物体是怎么运动的
  • 力是怎么传递的
  • 不同材质的东西摸起来是什么感觉
  • 怎么用力不会把东西捏碎
  • 东西滑了怎么调整手势

这些是所有机器人操纵任务的通用基础。

你不需要每次都重新教机器人"物理世界是怎么运作的"。它已经知道了。

第二层:技能抽象层

在基础模型之上,是技能抽象层。

这一层把通用的物理能力,封装成了一个个有明确接口、有明确输入输出、有明确行为保证的"技能"。

每个技能都像一个函数:

def grasp(
    target_object: Object,  # 要抓取的目标
    grasp_type: str = "auto",  # 抓取方式:侧抓、顶抓、包抓等等
    force: float = "medium",  # 用力大小
    speed: float = "normal",  # 运动速度
    retry: int = 3,  # 失败重试次数
) -> GraspResult:
    """抓取一个物体"""
    # 所有的复杂逻辑都被封装在里面了

作为使用者,你不需要知道里面发生了什么。你只需要知道调用这个函数,传什么参数,它就能完成任务。

而且,每个技能都有成功率保证。比如 grasp() 技能在日常物体上的成功率是 98.5%。你知道调用它,大概率会成功。

这才是真正的工程化。以前的机器人研究,大家只会说"我们的方法在某个数据集上达到了 SOTA",但没有人会给你成功率保证,更不会给你一个稳定的接口。

第三层:技能组合层

单个技能还不是最强大的。最强大的是,你可以把技能像乐高积木一样组合起来,做成更复杂的行为。

比如做早餐的技能序列:

# 打开冰箱
open_door(target="fridge")

# 拿出鸡蛋
grasp(target="egg")
move_to(target="counter")
place(target="egg")

# 关闭冰箱
close_door(target="fridge")

# 打到碗里
grasp(target="egg")
crack_and_pour(target="bowl")

# 等等等等

而且这些技能的组合,不是简单的顺序执行。它有状态管理,有错误处理,有重试逻辑,有降级方案。

第四层:硬件适配层

最下面一层,是硬件适配层。

同样的 grasp() 技能,在 UR5 机器臂上是一套控制参数,在 Franka Panda 上是另一套,在 Unitree 的机器人手上又是另一套。所有这些差异,都被这一层隐藏起来了。

作为开发者,你不需要关心你的代码最后跑在什么硬件上。你写一次,到处都能跑。

这四层加起来,就是一个完整的、工程化的、可以真正用来做产品的机器人开发平台。


三个最被低估的设计决策

这个技能库有三个非常重要的设计决策,我认为大多数人都没有充分意识到它们的价值。

✅ 决策 1:不是端到端,是模块化的接口

很多人做具身智能,都在追求端到端的大一统模型:输入视觉,直接输出电机扭矩。

英伟达没有走这条路。他们选择了模块化的设计:每个技能是一个独立的模块,有明确的接口,有明确的边界。

为什么这个决策这么重要?

因为只有模块化,才能被复用,才能被组合,才能被迭代,才能被调试。

一个端到端的黑箱模型,你永远不知道它为什么成功,为什么失败,出了问题也不知道怎么修。你也不可能把 A 模型里的某部分能力拿出来,和 B 模型的能力组合起来。

而模块化的技能库,这些问题全都解决了。

✅ 决策 2:明确的成功率和边界条件

每个技能,英伟达都给出了明确的:

  • 在什么条件下,它的成功率是多少
  • 它能处理什么类型的物体
  • 它不能处理什么情况
  • 它的常见失败模式是什么
  • 失败了之后怎么处理

这看起来是小事,但这是从"研究"到"工程"的分水岭。

学术界的论文只会告诉你"我们的方法平均成功率 92%"。 工程师需要知道的是:"在条件 A 下成功率 98%,在条件 B 下 85%,在条件 C 下你最好别用它,失败了会有什么后果,怎么恢复。"

英伟达把这些东西都给你了。

✅ 决策 3:开源,而且是真开源

英伟达这次不是放了一个 Demo,不是开放了一个 API,是真的把整个技能库开源了。

包括:

  • 所有预训练好的模型权重
  • 所有技能的实现代码
  • 所有训练数据的清单和格式
  • 所有评估和测试的 benchmark

这意味着整个社区都可以站在英伟达的肩膀上继续往前走。你可以改进现有的技能,可以添加新的技能,可以把它适配到新的硬件上,可以用它做各种之前想都不敢想的应用。

这不是把鱼给你。这是把渔网给你,而且还教你怎么织新的网。


这个技能库,到底能用来做什么?

当你有了这样一个技能库之后,机器人应用的开发门槛,会降到什么程度?

让我们脑洞大开一下:

场景 1:家用服务机器人

以前做一个能整理房间的家用机器人,可能需要几百人的团队做几年。 现在:

def clean_room():
    # 把所有散落在地上的东西捡起来放到该放的地方
    for object in scan_room():
        if object.type == "clothing":
            grasp(object)
            place(target="laundry_basket")
        elif object.type == "book":
            grasp(object)
            place(target="bookshelf")
        elif object.type == "trash":
            grasp(object)
            place(target="trash_can")

一个普通的开发者,可能一周就能写出一个能用的版本。

场景 2:工业自动化

工厂里的各种装配、搬运、质检任务。 以前每个任务都需要系统集成商花几个月定制开发。 现在大部分常见任务,直接从技能库里面调。

而且如果某个特定的工厂任务,技能库里没有,你也不需要从零开始。你可以在现有技能的基础上微调,成本可能只有以前的十分之一。

场景 3:老年护理和康复机器人

帮老人拿药、拿水、拿食物、扶着走路、做康复训练。 这些场景的很多基础操作,都可以直接从技能库调用。开发者只需要专注于具体的护理流程和病人交互,不需要从零做机器人操纵。

场景 4:灾难救援机器人

在地震、火灾之后进去救人,清理废墟,转移伤员。 这种场景下,你不可能提前为所有可能的情况都训练模型。但你有了技能库之后,现场的救援人员可以快速地把各种基础技能组合成需要的行为。

最重要的不是这些场景本身。最重要的是:所有这些应用,现在可以被成千上万的开发者去尝试,去探索,去迭代。

在这个技能库之前,全世界能做机器人应用开发的,可能只有那几十家大公司的几百个专家。

在这个技能库之后,任何一个会写 Python 的开发者,都可以开始做机器人应用。

这是什么概念?这就像当年个人电脑出现,把计算能力从少数大型机工程师手里,交到了几百万普通程序员手里一样。

开发者的数量,会从几百个,变成几百万个。

然后会发生什么?所有你能想到的、你想不到的应用,都会像雨后春笋一样冒出来。


对整个行业的影响

这个技能库的出现,会在至少四个层面,彻底改变整个具身智能行业的格局。

影响 1:应用层大爆发

就像 iPhone 出现之后,移动应用大爆发一样。 当开发门槛降得足够低,当足够多的开发者能够参与进来的时候,就会出现应用层的大爆发。

未来两三年,我们会看到各种各样千奇百怪的机器人应用,出现在各个你能想到和想不到的领域。

影响 2:重新定义竞争壁垒

以前,机器人公司的竞争壁垒是什么? 是你能不能做出那些基础的操纵技能,能不能让机器臂稳定地拿起一个杯子。

现在,这个东西英伟达免费给你了,而且做的比 99% 的公司都好。

那未来的竞争壁垒是什么? 是你怎么组合这些技能,是你对具体场景的理解,是你能不能做出真正解决真实问题的产品,是你的用户体验,是你的渠道,是你的品牌。

竞争从底层技术,转向了应用和产品。

这对整个行业是好事。会有更多真正懂用户、懂产品的人进入这个行业。

影响 3:硬件和软件的解耦

以前,机器人的硬件和软件是深度绑定的。你买哪个公司的机器臂,你就得用哪个公司的软件栈。

现在不一样了。 英伟达的技能库,跑在所有主流的机器臂上。

你想用什么硬件就用什么硬件,软件是通用的。

这会彻底改变硬件厂商的定价权和商业模式。也会催生大量新的、更便宜、更专业的硬件厂商。

影响 4:数据飞轮的开始

这是最长远,也是最深刻的影响。

当有几百万开发者在用这个技能库做各种应用的时候,就会产生海量的真实世界的机器人操纵数据。 这些数据,有成功的,有失败的,有各种边缘情况,有各种奇奇怪怪的物体和场景。

这些真实世界的数据,会被用来改进技能库本身。 技能库变得更好,又会吸引更多的开发者,产生更多的数据。

这是一个正向循环,一个越转越快的飞轮。

一旦这个飞轮真的转起来,任何人再想追上,就几乎不可能了。


挑战和隐忧

当然,这个世界上没有银弹。这个技能库虽然强大,但它也不是完美的。仍然有很多挑战和隐忧。

⚠️ 挑战 1:长尾问题

常见的 80% 的场景,技能库确实能搞定。 但是剩下那 20% 的长尾场景呢? 那些奇奇怪怪的、很少见的、特殊的物体和情况,技能库的表现会怎么样? 这仍然是一个巨大的问号。

而且越是真实的应用场景,长尾问题就越重要。 一个家用机器人,99 次都成功地拿起了杯子,只要有 1 次没拿稳,把热水洒在了小孩身上,那就是不可接受的。

⚠️ 挑战 2:组合爆炸问题

单个技能的成功率是 99%,听起来很高。 但是如果你把 10 个技能串起来,整个流程的成功率就是 0.99^10 ≈ 90%。 如果你把 100 个技能串起来,整个流程的成功率就只有 37% 了。

真实世界的复杂任务,往往需要串非常多的技能。 怎么处理组合之后的错误积累?怎么处理技能之间的交接边界?怎么设计合理的重试和回滚机制?

这些都是非常难的工程问题,现在还远没有被完美解决。

⚠️ 挑战 3:安全和责任问题

如果一个用英伟达技能库做出来的机器人,在工作的时候伤了人,或者造成了财产损失。 谁来负责? 是写应用的开发者? 是做技能库的英伟达? 是卖机器人硬件的厂商? 还是最终用户?

这是一个巨大的法律和伦理的地雷。而且目前整个社会都还没有做好准备。

⚠️ 挑战 4:会不会形成事实上的垄断?

如果整个行业都在用英伟达的技能库,如果所有的机器人应用都跑在英伟达的技术栈上。 那英伟达会不会成为具身智能时代的 Windows? 一家公司垄断了整个行业的底层基础设施,这到底是好事还是坏事?

这些问题,现在都还没有答案。


Jim Fan 到底是谁?为什么他的话这么有分量?

最后,我想花一点时间,说说 Jim Fan 这个人。

很多人可能不知道,Jim Fan 不是一个普通的英伟达科学家。他是整个具身智能领域最有远见、也最活跃的思想领袖之一。

他的经历本身就是一部 AI 发展史的缩影:

  • 他是英伟达 VIMA 模型的第一作者——那是第一个真正证明了多模态通用具身智能是可行的模型
  • 他是英伟达 Foundation Agent 项目的核心负责人
  • 他是开源机器人社区最活跃的布道者和思想领袖
  • 他几乎是以一己之力,推动了整个"通用机器人智能"这个方向的共识

当 Jim Fan 说"范式变了"的时候,他不是在做公关宣传,他是在告诉你:

"我在这个领域做了这么多年研究,我看过所有的技术路线,我知道现在这个节点意味着什么。这个行业,接下来要天翻地覆了。"

他在英伟达内部推动了无数次的技术决策,说服了无数的人,克服了无数的阻力,才把这个技能库真正做出来,并且真的开源出来。

很多时候,一个技术趋势能不能真的发生,就差那么一两个关键的人,在关键的位置上,在关键的时间点,把事情往前推那么一把。

Jim Fan 就是那个关键的人。


写在最后

100 多年前,第一辆汽车被发明出来的时候,大多数人都觉得这只是一个"不用马拉的马车",是一个给有钱人玩的昂贵玩具。

没有人能想到,汽车会彻底改变整个世界的面貌。它会改变城市的形态,会改变人们的生活方式,会创造出无数的新行业,会毁灭无数的旧行业,会重塑整个全球的经济和政治格局。

今天,我们站在一个一模一样的历史节点上。

很多人觉得,机器人技能库,只是又一个很酷的技术 Demo,只是英伟达做的又一个开源项目。

但我相信,很多年以后回头看,我们会意识到:2026 年 7 月英伟达开源这个机器人技能库的这一天,就是具身智能时代真正的起点。

从这一天开始,机器人不再只是实验室里的昂贵玩具,不再只是大公司和顶尖专家才能染指的领域。

从这一天开始,任何一个会写代码的普通人,都可以开始创造真正有用的机器人应用。

从这一天开始,整个行业的飞轮,开始转动了。

而我们所有人,都有幸亲眼目睹这个时代的开启。


参考资源

  1. 量子位报道原文https://www.qbitai.com/2026/07/441396.html 本次事件的中文首发报道

  2. 英伟达机器人技能库 GitHub — 官方开源仓库,包含所有代码和模型 (正式发布后会更新链接)

  3. VIMA 论文https://arxiv.org/abs/2210.03094 Jim Fan 之前的里程碑式工作,通用多模态具身智能体

  4. 英伟达 Foundation Agent — 英伟达通用具身智能基础模型项目 整个技能库的技术底座


作者: itech001 来源: 公众号:AI人工智能时代 网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

分享给朋友