llm-wiki:给 AI Agent 装上可审计的研究大脑(710 stars)
llm-wiki:给 AI Agent 装上一个可审计的研究大脑,710 stars 的 Claude Code 插件怎么玩
先收藏,回头给 Claude Code 装上试试。
你有没有这种感觉:用 Claude Code 或 Codex 做技术调研,问一次它搜一次,下次再问同样的东西又从零开始。聊了三天上下文一炸,Agent 就失忆了,之前挖出来的资料、踩过的坑全没了。
我最近发现一个项目把这个问题解决得很彻底——nvk/llm-wiki,一个让任意 AI agent 编译知识库的开源工具。710 stars,MIT 协议,Python 写的,核心思路一句话:让 Agent 自己把研究过程沉淀成可追溯的 wiki,下次直接查,不用重新搜。
灵感来自 Andrej Karpathy 提过的 LLM wiki 概念,但实现得很工程化——它不是给你看的笔记本,是给 Agent 自己用的「第二大脑」。
本文提纲
- llm-wiki 到底解决了什么问题
- 核心机制:并行多 agent + 可追溯 wiki
- 五种运行时:Claude Code 是一等公民
- 核心命令速览
- 一个完整研究流程长什么样
- 它和 RAG 的本质区别
- 谁适合用,谁先别急
llm-wiki 到底解决了什么问题
先说它不是什么,避免误解:
- 不是代码生成加速器,不碰 HumanEval/MBPP 那套
- 不是给你做读书笔记的 Obsidian 插件(虽然输出格式兼容 Obsidian)
- 不是 RAG 框架(这点后面细说,区别很关键)
它真正解决的问题是:Agent 的研究是「一次性的」。
举个真实场景。你要研究「硬件钱包的威胁模型」,让 Claude Code 去查。它会搜网页、读文章、给你一个综述。但这个综述聊完就消失了。下周你想接着研究「ColdCard 这款钱包的具体攻击面」,Agent 不记得上周查过什么,又得从头搜。
llm-wiki 干的事是:把第一次研究的结果编译成一个结构化的 wiki 目录(Markdown 文件 + 源码引用 + 索引),存在本地。下次 Agent 再被问到相关问题,先查 wiki,命中就直接用,没命中才去搜。而且每条结论都能追溯到原始来源。
graph LR
A[User Question] --> B{Wiki Query}
B -->|Hit| C[Return Compiled Answer]
B -->|Miss| D[Parallel Agents Research]
D --> E[Ingest Sources]
E --> F[Compile Wiki]
F --> G[Return Answer + Store]
C --> H[User]
G --> H
style A fill:#FF6B6B,color:#000000
style B fill:#4ECDC4,color:#000000
style C fill:#96CEB4,color:#000000
style D fill:#45B7D1,color:#000000
style F fill:#FFEAA7,color:#000000
style G fill:#DDA0DD,color:#000000上图是它的工作循环:问题先查 wiki,命中直接返回;没命中才启动并行研究,研究完自动编译进 wiki。第二次问同样的问题,走的是绿色那条快路径。
核心机制:并行多 agent + 可追溯 wiki
这是 llm-wiki 最有意思的两个设计。
并行多 agent 研究。一条 /wiki:research 命令下去,它不是派一个 agent 串行地搜,而是同时派 5 到 10 个 agent 并行检索不同子主题。普通模式 --deep 开 8 个,极限模式 --retardmax 开 10 个 agent 同时跑,还会「滚雪球」——每一轮发现的新子主题自动派 agent 深挖。
一条命令能跑多久?参数 --min-time 1h 表示至少研究一小时。你可以下班前发一条命令,第二天早上回来收一个编译好的完整 wiki。这背后是 Claude Code 的 200K 上下文窗口在撑着,单个 agent 才装得下一轮研究的全部素材。
可追溯 wiki 编译。研究完了不是直接丢给你一段总结,而是编译成一个目录结构:
topics/
hardware-wallet-threat-models/
raw/ # 原始来源(URL、PDF、截图)
notes/ # agent 的工作笔记
articles/ # 编译出的结构化文章
inventory/ # 资产清单
datasets/ # 数据集(如果有)
.sessions/ # 会话快照 + 用户反馈关键在于 raw/ 和 articles/ 的对应关系——每段编译出来的结论都能追到原始来源文件。这就引出它和 RAG 的核心区别。
它和 RAG 的本质区别
很多人第一反应:「这不就是 RAG 吗?向量检索 + 生成。」
不是。区别在于谁在整理知识,以及知识的形态。
| 维度 | 传统 RAG | llm-wiki |
|---|---|---|
| 知识形态 | 向量嵌入,散在向量库里 | Markdown 文件,人类可读 |
| 整理者 | 离线 embedding 流程 | Agent 实时编译 |
| 可追溯性 | 难(向量不可读) | 强(每条结论指向 raw 源文件) |
| 可审计 | 几乎不行 | /wiki:audit 专门做信任审计 |
| 人工干预 | 要改向量重 embed | 直接改 Markdown |
RAG 的知识是给机器看的向量,你看不懂也改不了。llm-wiki 的知识是给人看的 Markdown,Agent 编译完你直接打开编辑器改,下次 Agent 读到的就是改过的版本。
这个设计带来的最大好处是可审计。研究敏感话题(比如安全威胁模型、医疗方案)时,/wiki:audit --project coldcard-threat-model 会检查每条结论的来源可信度、有没有遗漏反面证据、引用链是否完整。RAG 做不到这个——你没法审计一个向量。
五种运行时:Claude Code 是一等公民
llm-wiki 最聪明的设计是一套行为层,五个运行时壳。Claude Code 是主要适配对象(22K token 系统提示,200K 上下文),但同样的 wiki 协议可以跑在别的 agent 上:
| 运行时 | 安装方式 | 系统提示大小 | 适合场景 |
|---|---|---|---|
| Claude Code | claude plugin install wiki@llm-wiki |
~22K tokens | 完整 agent 研究 |
| OpenAI Codex | codex plugin marketplace add nvk/llm-wiki |
~3K tokens | OpenAI 生态 |
| OpenCode | opencode.json 配置 instructions URL | ~3K tokens | 多 provider |
| Pi | --instructions SKILL.md |
~1K tokens | 本地模型 |
| 任意 agent | 复制 AGENTS.md | 看情况 | 通用兜底 |
底层逻辑是:Claude Code 的 skills/wiki-manager/SKILL.md 是「行为真理源」,Codex 和 OpenCode 的版本是脚本自动同步生成的(sync-codex-plugin.sh、sync-opencode-plugin.sh),不是手维护的两套代码。有测试脚本盯着同步一致性,一旦 drift 就报错。
这意味着你换 agent 不用换知识库。wiki 目录是中立的,跟着你走,agent 只是访问它的前端。
Claude Code 一行装好:
claude plugin install wiki@llm-wiki核心命令速览
llm-wiki 的命令设计很克制,核心就这几个:
# 研究:从零创建一个 topic wiki,并行 agent 跑 1 小时
/wiki:research "gut microbiome" --new-topic --min-time 1h
# 深度模式:8 个 agent,跑 2 小时
/wiki:research "fasting" --deep --min-time 2h
# 论文式研究:给一个论点,搜集正反两面证据,最后给判决
/wiki:thesis "fiber reduces neuroinflammation via SCFAs"
# 收集:建带溯源的目录(表情包、工具、实体都行)
/wiki:collect "bitcoin memes" --wiki memes-bitcoin
# 查询:问 wiki,命中直接返回
/wiki:query "How does fiber affect mood?"
/wiki:query "compare keto and mediterranean" --deep
# 摄入:手动加一个来源
/wiki:ingest https://example.com/article
# 审计:检查一个 project 的引用链和可信度
/wiki:audit --project coldcard-threat-model除了带冒号的「显式命令」,还有模糊路由器。直接 /wiki what do we know about CRISPR? 它能识别成 query,/wiki add https://... 识别成 ingest。这是为了贴合人自然说话的习惯。
查询还分深度。--deep 会做交叉引用,把多个 topic 里的相关结论拼起来对比着答,而不是只查单个 topic。
一个完整研究流程长什么样
把上面串起来,一个真实的研究闭环是这样跑的:
sequenceDiagram
participant U as User
participant A as Claude Code
participant W as Wiki Hub
participant S as Web Sources
U->>A: /wiki:research "hardware wallet threats" --new-topic --min-time 1h
A->>W: Create topic dir
A->>S: Launch 8 parallel agents
S-->>A: Sources found
A->>A: Drill into subtopics each round
A->>W: Compile articles + raw sources
A->>W: Session checkpoint + feedback capture
A-->>U: Wiki ready
Note over U,W: One week later
U->>A: /wiki:query "ColdCard specific attacks"
A->>W: Query wiki
W-->>A: Hit (from last research)
A-->>U: Compiled answer with sources第一周发 research 命令,8 个 agent 并行挖一小时,编译成 wiki 存本地。第二周直接 query,命中本地 wiki 秒回,还带着原始来源链接。
这里有个细节值得说:会话快照和反馈捕获(v0.11、v0.12 新增的)。Agent 会自动把每次会话的关键内容脱敏存到 .sessions/,你中途纠正它的偏好、否定的方案也会被捕获成 feedback 候选。下次开新会话,Agent 先 rehydrate 这些快照,等于记住了你的研究历史。不过这些快照不会自动进入正式 wiki,要你显式 @wiki feedback promote 才转正,避免噪声污染知识库。
谁适合用,谁先别急
适合的人:
- 用 Claude Code 做技术/学术深度调研的,研究周期长、需要沉淀
- 做安全研究、威胁建模的,需要每条结论可追溯可审计
- 企业知识库维护者,想把散落的文档系统化
- 跨多个 agent 工具切换的人,需要中立的、可移植的知识层
先别急的人:
- 只做一次性问答的,RAG 或直接搜更轻
- 完全不用 Claude Code / Codex 这类 agent 的,AGENTS.md 兜底能用但体验打折
- 对磁盘空间敏感的——
raw/会存原始来源,深研究会占不少空间
llm-wiki 最适合的场景是长周期、多轮、需要可信度的研究。一次性任务它反而重了。
几个实操注意点
装之前先知道这些坑:
iCloud 用户注意权限。很多人把 wiki 目录放 iCloud 跨设备同步。macOS 的隐私控制会卡住——stat 能成功但读 wikis.json 报 Operation not permitted。解决办法不是换本地路径,而是给启动 agent 的那个 app 开 Full Disk Access,然后用 /wiki config hub-path 显式指定 iCloud 路径,别依赖默认的 ~/wiki。
sandbox 环境(nono)要开额外权限。wiki 目录在项目外,sandbox 默认读不到。Claude Code / OpenCode 要加 $HOME/.config/llm-wiki 读权限 + wiki 目录读写权限;Codex 还要额外加 $HOME/.codex 读写(插件缓存要写)。
更新别用 SSH。sandbox 里的 agent 升级插件用 gh auth login --web --git-protocol https,避免 SSH host-key 提示卡住。
版本同步。如果 claude plugin update 没拉到新版(marketplace 缓存陈旧),README 给了手动同步脚本,从仓库 clone 后 cp 到插件缓存目录,重启 Claude Code 生效。
参考文档与链接
- llm-wiki 项目官网 — 项目展示页与介绍
- GitHub: nvk/llm-wiki — 710 stars,MIT 协议,Python,核心仓库
- Claude Code 插件安装 —
claude plugin install wiki@llm-wiki一行安装 - How It Works 文档 — 并行多 agent 研究 + wiki 编译机制详解
- Research Modes — deep / retardmax / thesis 三种研究模式
- Nono Sandbox Permissions — sandbox 环境下的权限配置
- AGENTS.md 通用协议 — 给任意 agent 用的单文件兜底方案
你的 Agent 现在每次都从零开始研究?装上 llm-wiki 试试,回来评论区说说效果。觉得有用点个赞让更多人看到。
作者: itech001 来源: 公众号:AI人工智能时代 网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。