英伟达开源机器人技能库深度解析:Jim Fan 说的『范式变了』,到底是什么意思?
英伟达开源机器人技能库深度解析:Jim Fan 说的『范式变了』,到底是什么意思?
2026 年 7 月,具身智能领域扔了一颗原子弹。
英伟达开源了一个全新的机器人技能库,英伟达 AI 科学家 Jim Fan 在社交媒体上只说了一句话,就引爆了整个 AI 圈:
"范式变了。"
这四个字,分量千钧。
大多数人看到这个新闻的第一反应是:"哦,英伟达又开源了一个机器人的东西。"但很少有人真正意识到,这次开源的意义,可能远不止是"又一个开源项目"这么简单。
这篇文章,我来带你深度解析:这次开源到底是什么?Jim Fan 说的"范式转变"到底指什么?为什么说这是具身智能领域的一个里程碑?以及它将如何改变我们对机器人和 AI 的认知。
先搞清楚:这次开源的到底是什么?
在讲范式转变之前,我们先把最基本的问题搞清楚:英伟达这次开源的到底是什么东西?
简单说:这是一个机器人的"技能库"。
什么叫技能库?想象一下:
以前你想让机器人做一个"拿起杯子"的动作,你需要:
- 收集几千甚至几万次机器人尝试拿杯子的数据
- 找人标注这些数据
- 从零开始训练一个神经网络
- 调试 reward function
- 在模拟器里训练几个星期
- 迁移到真实机器人上
- 再调几个月的参数
- 最后它可能还是经常拿不起来
现在你只需要:
from nvidia_robot_skills import grasp
# 直接调用拿杯子的技能
result = grasp(target_object="cup", force="gentle")没了。
就像你调用一个普通的 API 一样。
所有那些训练、调试、迁移、优化的脏活累活,英伟达都已经帮你做完了。
这就是技能库。
它里面包含了大量预训练好的、经过验证的机器人操纵技能:
- ✅ 各种物体的抓取和放置
- ✅ 倒水、倒咖啡
- ✅ 开门、开门把手
- ✅ 按按钮、拨开关
- ✅ 折叠衣服
- ✅ 擦桌子
- ✅ 组装简单的零件
- ✅ 等等等等
而且这些技能不是只能在某一种特定的机器臂上用。它们是通用的,可以适配各种主流的机器人硬件。
这就是 Jim Fan 说的"范式变了"的第一层意思:机器人开发,从"任务专项编程",变成了"技能通用复用"。
为什么这是范式转变?
要理解"范式转变"这四个字的分量,你得先理解之前的范式是什么样的。
让我们回顾一下,在这个技能库出现之前,机器人开发是怎么做的:
旧范式:任务专项编程
每个任务,从头开始:
- 定义任务:我要让机器人做 X
- 收集数据:专门为这个任务收集成千上万次演示
- 训练模型:从零开始训练
- 调参:调 reward,调训练参数,调各种东西
- 迁移:从模拟器迁移到真实世界,再调一遍
- 部署:终于能用了
然后你想做第二个任务 Y? 很好,上面所有步骤,重来一遍。
每个任务都是一个孤岛。A 任务中学到的东西,几乎不能用到 B 任务上。你做了 10 个任务,你就做了 10 次几乎完全一样的重复劳动。
这就是为什么机器人发展这么慢。因为每个新应用,都相当于重新发明一遍轮子。
新范式:技能通用复用
有了技能库之后呢?
你想做一个"给客人端咖啡"的机器人应用:
- 从技能库中调用
grasp()技能,拿起咖啡杯 - 从技能库中调用
move_to_target()技能,移动到客人旁边 - 从技能库中调用
place()技能,把杯子放在桌子上 - 写一点点胶水代码,把这三个技能串起来
没了。
原来可能需要一个 5 人团队做 6 个月的工作,现在一个熟练的工程师,一周就搞定了。
而且最重要的是:这些技能是被成千上万个应用共享的。每有一个人用这些技能,每有一个人改进这些技能,所有人都能受益。
这就像编程领域从汇编语言进化到高级语言的过程。
- 以前写代码:你需要自己操作寄存器,自己管理内存,自己实现每个算法
- 现在写代码:你 import 一个库,调用一个函数,有人已经帮你把所有底层的事情做好了
机器人领域,正在经历一模一样的转变。
这就是范式转变。这就是为什么 Jim Fan 说这四个字的时候,整个行业都为之震动。
技术架构深度解析
这个技能库不是凭空变出来的。它背后是英伟达在具身智能领域过去几年所有技术积累的集大成者。
让我们看看它的技术架构到底是什么样的:
第一层:基础模型层
整个技能库的底座,是英伟达的通用具身智能基础模型。
这个模型,是用几百万次的各种机器人操纵数据预训练出来的。它学习到的不是某个特定任务的解法,而是物理世界的通用规律:
- 物体是怎么运动的
- 力是怎么传递的
- 不同材质的东西摸起来是什么感觉
- 怎么用力不会把东西捏碎
- 东西滑了怎么调整手势
这些是所有机器人操纵任务的通用基础。
你不需要每次都重新教机器人"物理世界是怎么运作的"。它已经知道了。
第二层:技能抽象层
在基础模型之上,是技能抽象层。
这一层把通用的物理能力,封装成了一个个有明确接口、有明确输入输出、有明确行为保证的"技能"。
每个技能都像一个函数:
def grasp(
target_object: Object, # 要抓取的目标
grasp_type: str = "auto", # 抓取方式:侧抓、顶抓、包抓等等
force: float = "medium", # 用力大小
speed: float = "normal", # 运动速度
retry: int = 3, # 失败重试次数
) -> GraspResult:
"""抓取一个物体"""
# 所有的复杂逻辑都被封装在里面了作为使用者,你不需要知道里面发生了什么。你只需要知道调用这个函数,传什么参数,它就能完成任务。
而且,每个技能都有成功率保证。比如 grasp() 技能在日常物体上的成功率是 98.5%。你知道调用它,大概率会成功。
这才是真正的工程化。以前的机器人研究,大家只会说"我们的方法在某个数据集上达到了 SOTA",但没有人会给你成功率保证,更不会给你一个稳定的接口。
第三层:技能组合层
单个技能还不是最强大的。最强大的是,你可以把技能像乐高积木一样组合起来,做成更复杂的行为。
比如做早餐的技能序列:
# 打开冰箱
open_door(target="fridge")
# 拿出鸡蛋
grasp(target="egg")
move_to(target="counter")
place(target="egg")
# 关闭冰箱
close_door(target="fridge")
# 打到碗里
grasp(target="egg")
crack_and_pour(target="bowl")
# 等等等等而且这些技能的组合,不是简单的顺序执行。它有状态管理,有错误处理,有重试逻辑,有降级方案。
第四层:硬件适配层
最下面一层,是硬件适配层。
同样的 grasp() 技能,在 UR5 机器臂上是一套控制参数,在 Franka Panda 上是另一套,在 Unitree 的机器人手上又是另一套。所有这些差异,都被这一层隐藏起来了。
作为开发者,你不需要关心你的代码最后跑在什么硬件上。你写一次,到处都能跑。
这四层加起来,就是一个完整的、工程化的、可以真正用来做产品的机器人开发平台。
三个最被低估的设计决策
这个技能库有三个非常重要的设计决策,我认为大多数人都没有充分意识到它们的价值。
✅ 决策 1:不是端到端,是模块化的接口
很多人做具身智能,都在追求端到端的大一统模型:输入视觉,直接输出电机扭矩。
英伟达没有走这条路。他们选择了模块化的设计:每个技能是一个独立的模块,有明确的接口,有明确的边界。
为什么这个决策这么重要?
因为只有模块化,才能被复用,才能被组合,才能被迭代,才能被调试。
一个端到端的黑箱模型,你永远不知道它为什么成功,为什么失败,出了问题也不知道怎么修。你也不可能把 A 模型里的某部分能力拿出来,和 B 模型的能力组合起来。
而模块化的技能库,这些问题全都解决了。
✅ 决策 2:明确的成功率和边界条件
每个技能,英伟达都给出了明确的:
- 在什么条件下,它的成功率是多少
- 它能处理什么类型的物体
- 它不能处理什么情况
- 它的常见失败模式是什么
- 失败了之后怎么处理
这看起来是小事,但这是从"研究"到"工程"的分水岭。
学术界的论文只会告诉你"我们的方法平均成功率 92%"。 工程师需要知道的是:"在条件 A 下成功率 98%,在条件 B 下 85%,在条件 C 下你最好别用它,失败了会有什么后果,怎么恢复。"
英伟达把这些东西都给你了。
✅ 决策 3:开源,而且是真开源
英伟达这次不是放了一个 Demo,不是开放了一个 API,是真的把整个技能库开源了。
包括:
- 所有预训练好的模型权重
- 所有技能的实现代码
- 所有训练数据的清单和格式
- 所有评估和测试的 benchmark
这意味着整个社区都可以站在英伟达的肩膀上继续往前走。你可以改进现有的技能,可以添加新的技能,可以把它适配到新的硬件上,可以用它做各种之前想都不敢想的应用。
这不是把鱼给你。这是把渔网给你,而且还教你怎么织新的网。
这个技能库,到底能用来做什么?
当你有了这样一个技能库之后,机器人应用的开发门槛,会降到什么程度?
让我们脑洞大开一下:
场景 1:家用服务机器人
以前做一个能整理房间的家用机器人,可能需要几百人的团队做几年。 现在:
def clean_room():
# 把所有散落在地上的东西捡起来放到该放的地方
for object in scan_room():
if object.type == "clothing":
grasp(object)
place(target="laundry_basket")
elif object.type == "book":
grasp(object)
place(target="bookshelf")
elif object.type == "trash":
grasp(object)
place(target="trash_can")一个普通的开发者,可能一周就能写出一个能用的版本。
场景 2:工业自动化
工厂里的各种装配、搬运、质检任务。 以前每个任务都需要系统集成商花几个月定制开发。 现在大部分常见任务,直接从技能库里面调。
而且如果某个特定的工厂任务,技能库里没有,你也不需要从零开始。你可以在现有技能的基础上微调,成本可能只有以前的十分之一。
场景 3:老年护理和康复机器人
帮老人拿药、拿水、拿食物、扶着走路、做康复训练。 这些场景的很多基础操作,都可以直接从技能库调用。开发者只需要专注于具体的护理流程和病人交互,不需要从零做机器人操纵。
场景 4:灾难救援机器人
在地震、火灾之后进去救人,清理废墟,转移伤员。 这种场景下,你不可能提前为所有可能的情况都训练模型。但你有了技能库之后,现场的救援人员可以快速地把各种基础技能组合成需要的行为。
最重要的不是这些场景本身。最重要的是:所有这些应用,现在可以被成千上万的开发者去尝试,去探索,去迭代。
在这个技能库之前,全世界能做机器人应用开发的,可能只有那几十家大公司的几百个专家。
在这个技能库之后,任何一个会写 Python 的开发者,都可以开始做机器人应用。
这是什么概念?这就像当年个人电脑出现,把计算能力从少数大型机工程师手里,交到了几百万普通程序员手里一样。
开发者的数量,会从几百个,变成几百万个。
然后会发生什么?所有你能想到的、你想不到的应用,都会像雨后春笋一样冒出来。
对整个行业的影响
这个技能库的出现,会在至少四个层面,彻底改变整个具身智能行业的格局。
影响 1:应用层大爆发
就像 iPhone 出现之后,移动应用大爆发一样。 当开发门槛降得足够低,当足够多的开发者能够参与进来的时候,就会出现应用层的大爆发。
未来两三年,我们会看到各种各样千奇百怪的机器人应用,出现在各个你能想到和想不到的领域。
影响 2:重新定义竞争壁垒
以前,机器人公司的竞争壁垒是什么? 是你能不能做出那些基础的操纵技能,能不能让机器臂稳定地拿起一个杯子。
现在,这个东西英伟达免费给你了,而且做的比 99% 的公司都好。
那未来的竞争壁垒是什么? 是你怎么组合这些技能,是你对具体场景的理解,是你能不能做出真正解决真实问题的产品,是你的用户体验,是你的渠道,是你的品牌。
竞争从底层技术,转向了应用和产品。
这对整个行业是好事。会有更多真正懂用户、懂产品的人进入这个行业。
影响 3:硬件和软件的解耦
以前,机器人的硬件和软件是深度绑定的。你买哪个公司的机器臂,你就得用哪个公司的软件栈。
现在不一样了。 英伟达的技能库,跑在所有主流的机器臂上。
你想用什么硬件就用什么硬件,软件是通用的。
这会彻底改变硬件厂商的定价权和商业模式。也会催生大量新的、更便宜、更专业的硬件厂商。
影响 4:数据飞轮的开始
这是最长远,也是最深刻的影响。
当有几百万开发者在用这个技能库做各种应用的时候,就会产生海量的真实世界的机器人操纵数据。 这些数据,有成功的,有失败的,有各种边缘情况,有各种奇奇怪怪的物体和场景。
这些真实世界的数据,会被用来改进技能库本身。 技能库变得更好,又会吸引更多的开发者,产生更多的数据。
这是一个正向循环,一个越转越快的飞轮。
一旦这个飞轮真的转起来,任何人再想追上,就几乎不可能了。
挑战和隐忧
当然,这个世界上没有银弹。这个技能库虽然强大,但它也不是完美的。仍然有很多挑战和隐忧。
⚠️ 挑战 1:长尾问题
常见的 80% 的场景,技能库确实能搞定。 但是剩下那 20% 的长尾场景呢? 那些奇奇怪怪的、很少见的、特殊的物体和情况,技能库的表现会怎么样? 这仍然是一个巨大的问号。
而且越是真实的应用场景,长尾问题就越重要。 一个家用机器人,99 次都成功地拿起了杯子,只要有 1 次没拿稳,把热水洒在了小孩身上,那就是不可接受的。
⚠️ 挑战 2:组合爆炸问题
单个技能的成功率是 99%,听起来很高。 但是如果你把 10 个技能串起来,整个流程的成功率就是 0.99^10 ≈ 90%。 如果你把 100 个技能串起来,整个流程的成功率就只有 37% 了。
真实世界的复杂任务,往往需要串非常多的技能。 怎么处理组合之后的错误积累?怎么处理技能之间的交接边界?怎么设计合理的重试和回滚机制?
这些都是非常难的工程问题,现在还远没有被完美解决。
⚠️ 挑战 3:安全和责任问题
如果一个用英伟达技能库做出来的机器人,在工作的时候伤了人,或者造成了财产损失。 谁来负责? 是写应用的开发者? 是做技能库的英伟达? 是卖机器人硬件的厂商? 还是最终用户?
这是一个巨大的法律和伦理的地雷。而且目前整个社会都还没有做好准备。
⚠️ 挑战 4:会不会形成事实上的垄断?
如果整个行业都在用英伟达的技能库,如果所有的机器人应用都跑在英伟达的技术栈上。 那英伟达会不会成为具身智能时代的 Windows? 一家公司垄断了整个行业的底层基础设施,这到底是好事还是坏事?
这些问题,现在都还没有答案。
Jim Fan 到底是谁?为什么他的话这么有分量?
最后,我想花一点时间,说说 Jim Fan 这个人。
很多人可能不知道,Jim Fan 不是一个普通的英伟达科学家。他是整个具身智能领域最有远见、也最活跃的思想领袖之一。
他的经历本身就是一部 AI 发展史的缩影:
- 他是英伟达 VIMA 模型的第一作者——那是第一个真正证明了多模态通用具身智能是可行的模型
- 他是英伟达 Foundation Agent 项目的核心负责人
- 他是开源机器人社区最活跃的布道者和思想领袖
- 他几乎是以一己之力,推动了整个"通用机器人智能"这个方向的共识
当 Jim Fan 说"范式变了"的时候,他不是在做公关宣传,他是在告诉你:
"我在这个领域做了这么多年研究,我看过所有的技术路线,我知道现在这个节点意味着什么。这个行业,接下来要天翻地覆了。"
他在英伟达内部推动了无数次的技术决策,说服了无数的人,克服了无数的阻力,才把这个技能库真正做出来,并且真的开源出来。
很多时候,一个技术趋势能不能真的发生,就差那么一两个关键的人,在关键的位置上,在关键的时间点,把事情往前推那么一把。
Jim Fan 就是那个关键的人。
写在最后
100 多年前,第一辆汽车被发明出来的时候,大多数人都觉得这只是一个"不用马拉的马车",是一个给有钱人玩的昂贵玩具。
没有人能想到,汽车会彻底改变整个世界的面貌。它会改变城市的形态,会改变人们的生活方式,会创造出无数的新行业,会毁灭无数的旧行业,会重塑整个全球的经济和政治格局。
今天,我们站在一个一模一样的历史节点上。
很多人觉得,机器人技能库,只是又一个很酷的技术 Demo,只是英伟达做的又一个开源项目。
但我相信,很多年以后回头看,我们会意识到:2026 年 7 月英伟达开源这个机器人技能库的这一天,就是具身智能时代真正的起点。
从这一天开始,机器人不再只是实验室里的昂贵玩具,不再只是大公司和顶尖专家才能染指的领域。
从这一天开始,任何一个会写代码的普通人,都可以开始创造真正有用的机器人应用。
从这一天开始,整个行业的飞轮,开始转动了。
而我们所有人,都有幸亲眼目睹这个时代的开启。
参考资源
量子位报道原文 — https://www.qbitai.com/2026/07/441396.html 本次事件的中文首发报道
英伟达机器人技能库 GitHub — 官方开源仓库,包含所有代码和模型 (正式发布后会更新链接)
VIMA 论文 — https://arxiv.org/abs/2210.03094 Jim Fan 之前的里程碑式工作,通用多模态具身智能体
英伟达 Foundation Agent — 英伟达通用具身智能基础模型项目 整个技能库的技术底座
作者: itech001 来源: 公众号:AI人工智能时代 网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。