英伟达相关的核心要点是什么？

本文围绕英伟达、具身智能、机器人、Jim Fan、技能库、开源、AI 展开，深度解析英伟达全新开源的机器人技能库：从任务专项编程到技能通用复用的范式转变，为什么这是具身智能领域的里程碑事件，以及它将如何改变机器人开发的未来。详细解读见正文。

英伟达开源机器人技能库深度解析：Jim Fan 说的『范式变了』，到底是什么意思？

Q: 英伟达 相关的核心要点是什么？

本文围绕 英伟达、具身智能、机器人、Jim Fan、技能库、开源、AI 展开，深度解析英伟达全新开源的机器人技能库：从任务专项编程到技能通用复用的范式转变，为什么这是具身智能领域的里程碑事件，以及它将如何改变机器人开发的未来。详细解读见正文。

2026-07-04T12:00:00+08:00

英伟达具身智能机器人Jim Fan技能库开源AI

英伟达开源机器人技能库深度解析：Jim Fan 说的『范式变了』，到底是什么意思？

2026 年 7 月，具身智能领域扔了一颗原子弹。

英伟达开源了一个全新的机器人技能库，英伟达 AI 科学家 Jim Fan 在社交媒体上只说了一句话，就引爆了整个 AI 圈：

"范式变了。"

这四个字，分量千钧。

大多数人看到这个新闻的第一反应是："哦，英伟达又开源了一个机器人的东西。"但很少有人真正意识到，这次开源的意义，可能远不止是"又一个开源项目"这么简单。

这篇文章，我来带你深度解析：这次开源到底是什么？Jim Fan 说的"范式转变"到底指什么？为什么说这是具身智能领域的一个里程碑？以及它将如何改变我们对机器人和 AI 的认知。

先搞清楚：这次开源的到底是什么？

在讲范式转变之前，我们先把最基本的问题搞清楚：英伟达这次开源的到底是什么东西？

简单说：这是一个机器人的"技能库"。

什么叫技能库？想象一下：

以前你想让机器人做一个"拿起杯子"的动作，你需要：

收集几千甚至几万次机器人尝试拿杯子的数据
找人标注这些数据
从零开始训练一个神经网络
调试 reward function
在模拟器里训练几个星期
迁移到真实机器人上
再调几个月的参数
最后它可能还是经常拿不起来

现在你只需要：

from nvidia_robot_skills import grasp

# 直接调用拿杯子的技能
result = grasp(target_object="cup", force="gentle")

没了。

就像你调用一个普通的 API 一样。

所有那些训练、调试、迁移、优化的脏活累活，英伟达都已经帮你做完了。

这就是技能库。

它里面包含了大量预训练好的、经过验证的机器人操纵技能：

✅ 各种物体的抓取和放置
✅ 倒水、倒咖啡
✅ 开门、开门把手
✅ 按按钮、拨开关
✅ 折叠衣服
✅ 擦桌子
✅ 组装简单的零件
✅ 等等等等

而且这些技能不是只能在某一种特定的机器臂上用。它们是通用的，可以适配各种主流的机器人硬件。

这就是 Jim Fan 说的"范式变了"的第一层意思：机器人开发，从"任务专项编程"，变成了"技能通用复用"。

为什么这是范式转变？

要理解"范式转变"这四个字的分量，你得先理解之前的范式是什么样的。

让我们回顾一下，在这个技能库出现之前，机器人开发是怎么做的：

旧范式：任务专项编程

每个任务，从头开始：

定义任务：我要让机器人做 X
收集数据：专门为这个任务收集成千上万次演示
训练模型：从零开始训练
调参：调 reward，调训练参数，调各种东西
迁移：从模拟器迁移到真实世界，再调一遍
部署：终于能用了

然后你想做第二个任务 Y？很好，上面所有步骤，重来一遍。

每个任务都是一个孤岛。A 任务中学到的东西，几乎不能用到 B 任务上。你做了 10 个任务，你就做了 10 次几乎完全一样的重复劳动。

这就是为什么机器人发展这么慢。因为每个新应用，都相当于重新发明一遍轮子。

新范式：技能通用复用

有了技能库之后呢？

你想做一个"给客人端咖啡"的机器人应用：

从技能库中调用 grasp() 技能，拿起咖啡杯
从技能库中调用 move_to_target() 技能，移动到客人旁边
从技能库中调用 place() 技能，把杯子放在桌子上
写一点点胶水代码，把这三个技能串起来

没了。

原来可能需要一个 5 人团队做 6 个月的工作，现在一个熟练的工程师，一周就搞定了。

而且最重要的是：这些技能是被成千上万个应用共享的。每有一个人用这些技能，每有一个人改进这些技能，所有人都能受益。

这就像编程领域从汇编语言进化到高级语言的过程。

以前写代码：你需要自己操作寄存器，自己管理内存，自己实现每个算法
现在写代码：你 import 一个库，调用一个函数，有人已经帮你把所有底层的事情做好了

机器人领域，正在经历一模一样的转变。

这就是范式转变。这就是为什么 Jim Fan 说这四个字的时候，整个行业都为之震动。

技术架构深度解析

这个技能库不是凭空变出来的。它背后是英伟达在具身智能领域过去几年所有技术积累的集大成者。

让我们看看它的技术架构到底是什么样的：

第一层：基础模型层

整个技能库的底座，是英伟达的通用具身智能基础模型。

这个模型，是用几百万次的各种机器人操纵数据预训练出来的。它学习到的不是某个特定任务的解法，而是物理世界的通用规律：

物体是怎么运动的
力是怎么传递的
不同材质的东西摸起来是什么感觉
怎么用力不会把东西捏碎
东西滑了怎么调整手势

这些是所有机器人操纵任务的通用基础。

你不需要每次都重新教机器人"物理世界是怎么运作的"。它已经知道了。

第二层：技能抽象层

在基础模型之上，是技能抽象层。

这一层把通用的物理能力，封装成了一个个有明确接口、有明确输入输出、有明确行为保证的"技能"。

每个技能都像一个函数：

def grasp(
    target_object: Object,  # 要抓取的目标
    grasp_type: str = "auto",  # 抓取方式：侧抓、顶抓、包抓等等
    force: float = "medium",  # 用力大小
    speed: float = "normal",  # 运动速度
    retry: int = 3,  # 失败重试次数
) -> GraspResult:
    """抓取一个物体"""
    # 所有的复杂逻辑都被封装在里面了

作为使用者，你不需要知道里面发生了什么。你只需要知道调用这个函数，传什么参数，它就能完成任务。

而且，每个技能都有成功率保证。比如 grasp() 技能在日常物体上的成功率是 98.5%。你知道调用它，大概率会成功。

这才是真正的工程化。以前的机器人研究，大家只会说"我们的方法在某个数据集上达到了 SOTA"，但没有人会给你成功率保证，更不会给你一个稳定的接口。

第三层：技能组合层

单个技能还不是最强大的。最强大的是，你可以把技能像乐高积木一样组合起来，做成更复杂的行为。

比如做早餐的技能序列：

# 打开冰箱
open_door(target="fridge")

# 拿出鸡蛋
grasp(target="egg")
move_to(target="counter")
place(target="egg")

# 关闭冰箱
close_door(target="fridge")

# 打到碗里
grasp(target="egg")
crack_and_pour(target="bowl")

# 等等等等

而且这些技能的组合，不是简单的顺序执行。它有状态管理，有错误处理，有重试逻辑，有降级方案。

第四层：硬件适配层

最下面一层，是硬件适配层。

同样的 grasp() 技能，在 UR5 机器臂上是一套控制参数，在 Franka Panda 上是另一套，在 Unitree 的机器人手上又是另一套。所有这些差异，都被这一层隐藏起来了。

作为开发者，你不需要关心你的代码最后跑在什么硬件上。你写一次，到处都能跑。

这四层加起来，就是一个完整的、工程化的、可以真正用来做产品的机器人开发平台。

三个最被低估的设计决策

这个技能库有三个非常重要的设计决策，我认为大多数人都没有充分意识到它们的价值。

✅ 决策 1：不是端到端，是模块化的接口

很多人做具身智能，都在追求端到端的大一统模型：输入视觉，直接输出电机扭矩。

英伟达没有走这条路。他们选择了模块化的设计：每个技能是一个独立的模块，有明确的接口，有明确的边界。

为什么这个决策这么重要？

因为只有模块化，才能被复用，才能被组合，才能被迭代，才能被调试。

一个端到端的黑箱模型，你永远不知道它为什么成功，为什么失败，出了问题也不知道怎么修。你也不可能把 A 模型里的某部分能力拿出来，和 B 模型的能力组合起来。

而模块化的技能库，这些问题全都解决了。

✅ 决策 2：明确的成功率和边界条件

每个技能，英伟达都给出了明确的：

在什么条件下，它的成功率是多少
它能处理什么类型的物体
它不能处理什么情况
它的常见失败模式是什么
失败了之后怎么处理

这看起来是小事，但这是从"研究"到"工程"的分水岭。

学术界的论文只会告诉你"我们的方法平均成功率 92%"。工程师需要知道的是："在条件 A 下成功率 98%，在条件 B 下 85%，在条件 C 下你最好别用它，失败了会有什么后果，怎么恢复。"

英伟达把这些东西都给你了。

✅ 决策 3：开源，而且是真开源

英伟达这次不是放了一个 Demo，不是开放了一个 API，是真的把整个技能库开源了。

包括：

所有预训练好的模型权重
所有技能的实现代码
所有训练数据的清单和格式
所有评估和测试的 benchmark

这意味着整个社区都可以站在英伟达的肩膀上继续往前走。你可以改进现有的技能，可以添加新的技能，可以把它适配到新的硬件上，可以用它做各种之前想都不敢想的应用。

这不是把鱼给你。这是把渔网给你，而且还教你怎么织新的网。

这个技能库，到底能用来做什么？

当你有了这样一个技能库之后，机器人应用的开发门槛，会降到什么程度？

让我们脑洞大开一下：

场景 1：家用服务机器人

以前做一个能整理房间的家用机器人，可能需要几百人的团队做几年。现在：

def clean_room():
    # 把所有散落在地上的东西捡起来放到该放的地方
    for object in scan_room():
        if object.type == "clothing":
            grasp(object)
            place(target="laundry_basket")
        elif object.type == "book":
            grasp(object)
            place(target="bookshelf")
        elif object.type == "trash":
            grasp(object)
            place(target="trash_can")

一个普通的开发者，可能一周就能写出一个能用的版本。

场景 2：工业自动化

工厂里的各种装配、搬运、质检任务。以前每个任务都需要系统集成商花几个月定制开发。现在大部分常见任务，直接从技能库里面调。

而且如果某个特定的工厂任务，技能库里没有，你也不需要从零开始。你可以在现有技能的基础上微调，成本可能只有以前的十分之一。

场景 3：老年护理和康复机器人

帮老人拿药、拿水、拿食物、扶着走路、做康复训练。这些场景的很多基础操作，都可以直接从技能库调用。开发者只需要专注于具体的护理流程和病人交互，不需要从零做机器人操纵。

场景 4：灾难救援机器人

在地震、火灾之后进去救人，清理废墟，转移伤员。这种场景下，你不可能提前为所有可能的情况都训练模型。但你有了技能库之后，现场的救援人员可以快速地把各种基础技能组合成需要的行为。

最重要的不是这些场景本身。最重要的是：所有这些应用，现在可以被成千上万的开发者去尝试，去探索，去迭代。

在这个技能库之前，全世界能做机器人应用开发的，可能只有那几十家大公司的几百个专家。

在这个技能库之后，任何一个会写 Python 的开发者，都可以开始做机器人应用。

这是什么概念？这就像当年个人电脑出现，把计算能力从少数大型机工程师手里，交到了几百万普通程序员手里一样。

开发者的数量，会从几百个，变成几百万个。

然后会发生什么？所有你能想到的、你想不到的应用，都会像雨后春笋一样冒出来。

对整个行业的影响

这个技能库的出现，会在至少四个层面，彻底改变整个具身智能行业的格局。

影响 1：应用层大爆发

就像 iPhone 出现之后，移动应用大爆发一样。当开发门槛降得足够低，当足够多的开发者能够参与进来的时候，就会出现应用层的大爆发。

未来两三年，我们会看到各种各样千奇百怪的机器人应用，出现在各个你能想到和想不到的领域。

影响 2：重新定义竞争壁垒

以前，机器人公司的竞争壁垒是什么？是你能不能做出那些基础的操纵技能，能不能让机器臂稳定地拿起一个杯子。

现在，这个东西英伟达免费给你了，而且做的比 99% 的公司都好。

那未来的竞争壁垒是什么？是你怎么组合这些技能，是你对具体场景的理解，是你能不能做出真正解决真实问题的产品，是你的用户体验，是你的渠道，是你的品牌。

竞争从底层技术，转向了应用和产品。

这对整个行业是好事。会有更多真正懂用户、懂产品的人进入这个行业。

影响 3：硬件和软件的解耦

以前，机器人的硬件和软件是深度绑定的。你买哪个公司的机器臂，你就得用哪个公司的软件栈。

现在不一样了。英伟达的技能库，跑在所有主流的机器臂上。

你想用什么硬件就用什么硬件，软件是通用的。

这会彻底改变硬件厂商的定价权和商业模式。也会催生大量新的、更便宜、更专业的硬件厂商。

影响 4：数据飞轮的开始

这是最长远，也是最深刻的影响。

当有几百万开发者在用这个技能库做各种应用的时候，就会产生海量的真实世界的机器人操纵数据。这些数据，有成功的，有失败的，有各种边缘情况，有各种奇奇怪怪的物体和场景。

这些真实世界的数据，会被用来改进技能库本身。技能库变得更好，又会吸引更多的开发者，产生更多的数据。

这是一个正向循环，一个越转越快的飞轮。

一旦这个飞轮真的转起来，任何人再想追上，就几乎不可能了。

挑战和隐忧

当然，这个世界上没有银弹。这个技能库虽然强大，但它也不是完美的。仍然有很多挑战和隐忧。

⚠️ 挑战 1：长尾问题

常见的 80% 的场景，技能库确实能搞定。但是剩下那 20% 的长尾场景呢？那些奇奇怪怪的、很少见的、特殊的物体和情况，技能库的表现会怎么样？这仍然是一个巨大的问号。

而且越是真实的应用场景，长尾问题就越重要。一个家用机器人，99 次都成功地拿起了杯子，只要有 1 次没拿稳，把热水洒在了小孩身上，那就是不可接受的。

⚠️ 挑战 2：组合爆炸问题

单个技能的成功率是 99%，听起来很高。但是如果你把 10 个技能串起来，整个流程的成功率就是 0.99^10 ≈ 90%。如果你把 100 个技能串起来，整个流程的成功率就只有 37% 了。

真实世界的复杂任务，往往需要串非常多的技能。怎么处理组合之后的错误积累？怎么处理技能之间的交接边界？怎么设计合理的重试和回滚机制？

这些都是非常难的工程问题，现在还远没有被完美解决。

⚠️ 挑战 3：安全和责任问题

如果一个用英伟达技能库做出来的机器人，在工作的时候伤了人，或者造成了财产损失。谁来负责？是写应用的开发者？是做技能库的英伟达？是卖机器人硬件的厂商？还是最终用户？

这是一个巨大的法律和伦理的地雷。而且目前整个社会都还没有做好准备。

⚠️ 挑战 4：会不会形成事实上的垄断？

如果整个行业都在用英伟达的技能库，如果所有的机器人应用都跑在英伟达的技术栈上。那英伟达会不会成为具身智能时代的 Windows？一家公司垄断了整个行业的底层基础设施，这到底是好事还是坏事？

这些问题，现在都还没有答案。

Jim Fan 到底是谁？为什么他的话这么有分量？

最后，我想花一点时间，说说 Jim Fan 这个人。

很多人可能不知道，Jim Fan 不是一个普通的英伟达科学家。他是整个具身智能领域最有远见、也最活跃的思想领袖之一。

他的经历本身就是一部 AI 发展史的缩影：

他是英伟达 VIMA 模型的第一作者——那是第一个真正证明了多模态通用具身智能是可行的模型
他是英伟达 Foundation Agent 项目的核心负责人
他是开源机器人社区最活跃的布道者和思想领袖
他几乎是以一己之力，推动了整个"通用机器人智能"这个方向的共识

当 Jim Fan 说"范式变了"的时候，他不是在做公关宣传，他是在告诉你：

"我在这个领域做了这么多年研究，我看过所有的技术路线，我知道现在这个节点意味着什么。这个行业，接下来要天翻地覆了。"

他在英伟达内部推动了无数次的技术决策，说服了无数的人，克服了无数的阻力，才把这个技能库真正做出来，并且真的开源出来。

很多时候，一个技术趋势能不能真的发生，就差那么一两个关键的人，在关键的位置上，在关键的时间点，把事情往前推那么一把。

Jim Fan 就是那个关键的人。

写在最后

100 多年前，第一辆汽车被发明出来的时候，大多数人都觉得这只是一个"不用马拉的马车"，是一个给有钱人玩的昂贵玩具。

没有人能想到，汽车会彻底改变整个世界的面貌。它会改变城市的形态，会改变人们的生活方式，会创造出无数的新行业，会毁灭无数的旧行业，会重塑整个全球的经济和政治格局。

今天，我们站在一个一模一样的历史节点上。

很多人觉得，机器人技能库，只是又一个很酷的技术 Demo，只是英伟达做的又一个开源项目。

但我相信，很多年以后回头看，我们会意识到：2026 年 7 月英伟达开源这个机器人技能库的这一天，就是具身智能时代真正的起点。

从这一天开始，机器人不再只是实验室里的昂贵玩具，不再只是大公司和顶尖专家才能染指的领域。

从这一天开始，任何一个会写代码的普通人，都可以开始创造真正有用的机器人应用。

从这一天开始，整个行业的飞轮，开始转动了。

而我们所有人，都有幸亲眼目睹这个时代的开启。

参考资源

量子位报道原文 — https://www.qbitai.com/2026/07/441396.html 本次事件的中文首发报道
英伟达机器人技能库 GitHub — 官方开源仓库，包含所有代码和模型（正式发布后会更新链接）
VIMA 论文 — https://arxiv.org/abs/2210.03094 Jim Fan 之前的里程碑式工作，通用多模态具身智能体
英伟达 Foundation Agent — 英伟达通用具身智能基础模型项目整个技能库的技术底座

作者: itech001 来源: 公众号：AI人工智能时代网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。

英伟达开源机器人技能库深度解析：Jim Fan 说的『范式变了』，到底是什么意思？

英伟达开源机器人技能库深度解析：Jim Fan 说的『范式变了』，到底是什么意思？

先搞清楚：这次开源的到底是什么？

为什么这是范式转变？

旧范式：任务专项编程

新范式：技能通用复用

技术架构深度解析

第一层：基础模型层

第二层：技能抽象层

第三层：技能组合层

第四层：硬件适配层

三个最被低估的设计决策

✅ 决策 1：不是端到端，是模块化的接口

✅ 决策 2：明确的成功率和边界条件

✅ 决策 3：开源，而且是真开源

这个技能库，到底能用来做什么？

场景 1：家用服务机器人

场景 2：工业自动化

场景 3：老年护理和康复机器人

场景 4：灾难救援机器人

对整个行业的影响

影响 1：应用层大爆发

影响 2：重新定义竞争壁垒

影响 3：硬件和软件的解耦

影响 4：数据飞轮的开始

挑战和隐忧

⚠️ 挑战 1：长尾问题

⚠️ 挑战 2：组合爆炸问题

⚠️ 挑战 3：安全和责任问题

⚠️ 挑战 4：会不会形成事实上的垄断？

Jim Fan 到底是谁？为什么他的话这么有分量？

写在最后

参考资源

相关阅读

告别脆弱的选择器测试：Approxima 开源了一个用自然语言写测试用例的 Agent 平台

7万星的AI交易框架：让大模型模拟投行多空辩论，自动做交易决策

每天花两小时刷信息？这个开源项目帮你全自动搞定

高德途途封神机器人半马，背后的 ABot-Claw 到底是什么