返回博客列表

港大 OpenSpace:一个让所有 AI Agent 共享记忆、自我进化的开源引擎

2026-06-08T08:18:00+08:00
OpenSpaceHKUDSAI AgentSelf-EvolvingSkill EvolutionMCP

港大 OpenSpace:一个让所有 AI Agent 共享记忆、自我进化的开源引擎

看完你会发现,你之前对 Agent 进化的理解可能要更新了。

香港大学数据科学实验室(HKUDS)今年 3 月开源了 OpenSpace,三个月 GitHub 星标冲到 6400+。它做的事情用一个公式概括:让任何 AI Agent 在完成真实任务的过程中自动积累、改进和共享技能

这不是又一个新的 Agent 框架。OpenSpace 是一个插件式进化引擎——它不替代你的 Agent,而是让你的 Agent 变得更聪明、更便宜、并且越用越好。

本文提纲

  1. 当前的 Agent 有什么问题
  2. OpenSpace 的三大超能力
  3. GDPVal 基准测试:收入翻 4.2 倍的真实数据
  4. 它是怎么工作的:自进化引擎架构
  5. 两分钟接入你的 Agent
  6. My Daily Monitor:60+ 技能从零进化出一个完整系统

当前的 Agent 有什么问题

现在的主流 Agent——Claude Code、Codex、OpenClaw、nanobot、Cursor——能力都很强,但有一个共同的致命弱点:它们永远不会从经验中学习

三个具体表现:

  • Token 浪费严重。每次遇到类似任务,Agent 都从零开始推理,烧一遍 token。上次成功解决的模式完全无法复用。
  • 重复犯错。Agent A 踩过的坑,Agent B 在同样的任务上再踩一遍。没有跨 Agent 的知识共享机制。
  • 技能退化。手写的 skill 随着 API 更新、工具变化,悄悄就坏了,没有任何监控和修复机制。

OpenSpace 的解决方案是一个三层的进化系统。

OpenSpace 的三大超能力

🧬 自进化(Self-Evolution)

Skill 不再是写完就死的静态文件。OpenSpace 给每个技能加了四层自动维护:

  • AUTO-FIX:skill 执行失败时自动诊断并修复
  • AUTO-IMPROVE:成功的执行模式被提取为新版本
  • AUTO-LEARN:从实际使用中捕获有效工作流
  • 质量监控:持续追踪每个 skill 的错误率、成功率和执行性能

这不是简单的版本管理。在 50 个真实任务的基准测试中,OpenSpace 自主进化出了 165 个 skill,其中大部分不是领域知识,而是工具可靠性和错误恢复模式

🌐 集体智能(Collective Intelligence)

一个 Agent 学到的东西,所有 Agent 都能用。

OpenSpace 有一个云端 skill 社区(open-space.cloud),支持一键上传和下载进化后的技能。你可以设置 public、private 或 team-only 访问权限。

这意味着网络效应:用的人越多 → 积累的数据越丰富 → 进化越快 → 每个 Agent 都受益。

💰 Token 效率(Token Efficiency)

进化的直接经济效益:

  • 复用成功的解决方案,不再从零推理
  • 随着技能成熟,同类任务消耗的 token 越来越少
  • 只修坏的部分,不重建整个 pipeline
  • 实测数据:性能提升 4.2 倍的同时,token 消耗降低 46%

GDPVal 基准测试:收入翻 4.2 倍的真实数据

OpenSpace 在 GDPVal 经济基准上做了严格的对比实验。GDPVal 包含 220 个真实专业任务,横跨 44 种职业。

实验设计很公平:OpenSpace 和基线(ClawWork)使用完全相同的 LLM(Qwen 3.5-Plus),确保差异只来自 skill 进化,而非模型能力。

两阶段测试:Phase 1(冷启动)跑完 50 个任务积累技能,Phase 2(热重跑)用积累的技能再跑一遍。

核心数据

指标 结果
收入倍数 4.2× 高于基线
价值捕获率 72.8%($11,484 / $15,764)
平均质量 70.8%(基线最好仅 40.8%,差距 30pp)
Phase 2 token 消耗 下降 45.9%

按行业拆解

行业 质量提升 Token 节省 关键原因
合规与表单 +18.5pp -51% PDF 处理链进化一次,所有表单任务复用
工程 +8.7pp -43% 跨领域通用的协调技能
文档与信函 +3.3pp -56% document-gen-fallback 迭代到第 13 版
电子表格 +7.3pp -37% 公式、合并单元格、校验模式跨任务一致
媒体制作 +5.8pp -46% ffmpeg 标志和编解码器回退被编码进 skill
战略与分析 +1.0pp -32% 已经是最高质量(88%),节省来自结构复用

一个有趣的发现:165 个自主进化的 skill 中,大部分不是领域知识,而是「怎么可靠地处理 PDF」「沙箱挂了怎么办」这类执行韧性模式。其中 44 个是文件格式 I/O 相关的,29 个是执行恢复相关的——每一个都是从真实失败中捕获的。

它是怎么工作的:自进化引擎架构

graph TB
    subgraph "Your Agent"
        AG[Claude Code / Codex / OpenClaw / nanobot]
    end
    subgraph "OpenSpace MCP"
        MCP[MCP Server]
        SE[Skill Engine]
        EV[Evolver]
        REG[Skill Registry]
        STORE[Skill Store]
    end
    subgraph "Cloud Community"
        CS[Cloud Skill Hub]
    end
    AG -->|Tool calls| MCP
    MCP --> SE
    SE --> EV
    SE --> REG
    REG --> STORE
    STORE <-->|Upload / Download| CS
    style AG fill:#FF6B6B,color:#000000
    style MCP fill:#4ECDC4,color:#000000
    style SE fill:#45B7D1,color:#000000
    style EV fill:#96CEB4,color:#000000
    style REG fill:#FFEAA7,color:#000000
    style STORE fill:#DDA0DD,color:#000000
    style CS fill:#98D8C8,color:#000000

核心组件:

Skill Engine:负责 skill 的生命周期管理——注册、检索、排名。每次 Agent 执行任务时,Skill Engine 决定加载哪些 skill,并在执行后分析哪些模式值得捕获。

Evolver:自进化的核心。它监控 skill 执行结果,检测失败模式(触发 AUTO-FIX)和成功模式(触发 AUTO-IMPROVE),生成改进版本。evolved skill 的谱系被完整记录,方便追溯。

MCP Server:通过 Model Context Protocol 接入任何兼容的 Agent。支持三种启动模式:stdio(最简单)、SSE、streamable HTTP。

Cloud Skill Hub:社区级 skill 共享平台。有质量监控系统——结构化模式提取自高质量 skill,每天评估新提交。

OpenSpace 的 skill_engine 目录结构清晰:

skill_engine/
├── evolver.py          # 自进化核心逻辑
├── analyzer.py         # 执行结果分析
├── registry.py         # Skill 注册管理
├── store.py            # 本地 skill 存储
├── skill_ranker.py     # Skill 排序
├── retrieve_tool.py    # Skill 检索
└── patch.py            # 增量修复

两分钟接入你的 Agent

OpenSpace 兼容任何支持 skill(SKILL.md)的 Agent。接入只需要两步:

第一步:安装并加到 Agent 的 MCP 配置:

{
  "mcpServers": {
    "openspace": {
      "command": "openspace-mcp",
      "toolTimeout": 600,
      "env": {
        "OPENSPACE_HOST_SKILL_DIRS": "/path/to/your/agent/skills",
        "OPENSPACE_WORKSPACE": "/path/to/OpenSpace"
      }
    }
  }
}

第二步:复制两个 skill 到你的 Agent skill 目录:

cp -r OpenSpace/openspace/host_skills/delegate-task/ /path/to/your/agent/skills/
cp -r OpenSpace/openspace/host_skills/skill-discovery/ /path/to/your/agent/skills/

完成。你的 Agent 现在可以自进化技能、执行复杂任务、并访问云端 skill 社区。LLM 凭证会从你 Agent 的配置中自动检测,通常不需要手动设置。

你也可以直接用 OpenSpace 当作独立的 AI 助手:

openspace --model "anthropic/claude-sonnet-4-5" --query "Create a monitoring dashboard"

My Daily Monitor:60+ 技能从零进化出一个完整系统

OpenSpace 的 showcase 项目叫 My Daily Monitor——一个实时监控仪表盘,显示进程、服务器状态、新闻、市场行情、邮件和日程。

关键点:整个系统零人工编码。 全部由 OpenSpace 从零开始,通过 60+ 个自主进化的 skill 构建。

构建过程:

阶段 发生了什么 Skill 数量
种子 分析开源参考项目,提取设计模式 6 个初始 skill
脚手架 生成项目结构、Vite 配置、TypeScript 设置 +8
核心功能 构建 20+ 个仪表盘面板、实时数据流 +30
优化 修复 bug、性能调优、暗色模式 +16+

这不是 demo 级别的玩具。20+ 个实时面板、多数据源聚合、内置 AI Agent——这是一个真正可用的生产系统。

对开发者的意义

OpenSpace 证明了几个关键假设:

Skill 进化比 Skill 编写更有效。 165 个自动发现的 skill 大部分是工具可靠性和错误恢复——这些是最难通过手工编写获得的「隐性知识」。

网络效应是真实的。 一个 Agent 学到的 PDF 处理回退方案,所有 Agent 立刻可用。这种共享不只是省时间,是指数级的效率提升。

经济价值可量化。 4.2 倍收入提升、46% token 节省——这不是学术 benchmark 上的零点几提升,是真金白银的差距。

项目 MIT 协议开源,Python 编写,兼容 Claude Code、Codex、OpenClaw、nanobot 等主流 Agent。如果你在用任何支持 MCP 的 Agent,值得花十分钟试试。

你觉得 Agent 自进化是噱头还是真需求?评论区聊聊你的看法。


作者: itech001 来源: 公众号:AI人工智能时代 网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

觉得文章不错?分享给更多人!