返回博客列表

llm-wiki:给 AI Agent 装上可审计的研究大脑(710 stars)

2026-06-20T21:30:00+08:00
llm-wikiClaude CodeAI Agent知识库RAG

llm-wiki:给 AI Agent 装上一个可审计的研究大脑,710 stars 的 Claude Code 插件怎么玩

先收藏,回头给 Claude Code 装上试试。

你有没有这种感觉:用 Claude Code 或 Codex 做技术调研,问一次它搜一次,下次再问同样的东西又从零开始。聊了三天上下文一炸,Agent 就失忆了,之前挖出来的资料、踩过的坑全没了。

我最近发现一个项目把这个问题解决得很彻底——nvk/llm-wiki,一个让任意 AI agent 编译知识库的开源工具。710 stars,MIT 协议,Python 写的,核心思路一句话:让 Agent 自己把研究过程沉淀成可追溯的 wiki,下次直接查,不用重新搜。

灵感来自 Andrej Karpathy 提过的 LLM wiki 概念,但实现得很工程化——它不是给你看的笔记本,是给 Agent 自己用的「第二大脑」。

本文提纲

  1. llm-wiki 到底解决了什么问题
  2. 核心机制:并行多 agent + 可追溯 wiki
  3. 五种运行时:Claude Code 是一等公民
  4. 核心命令速览
  5. 一个完整研究流程长什么样
  6. 它和 RAG 的本质区别
  7. 谁适合用,谁先别急

llm-wiki 到底解决了什么问题

先说它不是什么,避免误解:

  • 不是代码生成加速器,不碰 HumanEval/MBPP 那套
  • 不是给你做读书笔记的 Obsidian 插件(虽然输出格式兼容 Obsidian)
  • 不是 RAG 框架(这点后面细说,区别很关键)

它真正解决的问题是:Agent 的研究是「一次性的」

举个真实场景。你要研究「硬件钱包的威胁模型」,让 Claude Code 去查。它会搜网页、读文章、给你一个综述。但这个综述聊完就消失了。下周你想接着研究「ColdCard 这款钱包的具体攻击面」,Agent 不记得上周查过什么,又得从头搜。

llm-wiki 干的事是:把第一次研究的结果编译成一个结构化的 wiki 目录(Markdown 文件 + 源码引用 + 索引),存在本地。下次 Agent 再被问到相关问题,先查 wiki,命中就直接用,没命中才去搜。而且每条结论都能追溯到原始来源。

graph LR
    A[User Question] --> B{Wiki Query}
    B -->|Hit| C[Return Compiled Answer]
    B -->|Miss| D[Parallel Agents Research]
    D --> E[Ingest Sources]
    E --> F[Compile Wiki]
    F --> G[Return Answer + Store]
    C --> H[User]
    G --> H
    style A fill:#FF6B6B,color:#000000
    style B fill:#4ECDC4,color:#000000
    style C fill:#96CEB4,color:#000000
    style D fill:#45B7D1,color:#000000
    style F fill:#FFEAA7,color:#000000
    style G fill:#DDA0DD,color:#000000

上图是它的工作循环:问题先查 wiki,命中直接返回;没命中才启动并行研究,研究完自动编译进 wiki。第二次问同样的问题,走的是绿色那条快路径。

核心机制:并行多 agent + 可追溯 wiki

这是 llm-wiki 最有意思的两个设计。

并行多 agent 研究。一条 /wiki:research 命令下去,它不是派一个 agent 串行地搜,而是同时派 5 到 10 个 agent 并行检索不同子主题。普通模式 --deep 开 8 个,极限模式 --retardmax 开 10 个 agent 同时跑,还会「滚雪球」——每一轮发现的新子主题自动派 agent 深挖。

一条命令能跑多久?参数 --min-time 1h 表示至少研究一小时。你可以下班前发一条命令,第二天早上回来收一个编译好的完整 wiki。这背后是 Claude Code 的 200K 上下文窗口在撑着,单个 agent 才装得下一轮研究的全部素材。

可追溯 wiki 编译。研究完了不是直接丢给你一段总结,而是编译成一个目录结构:

topics/
  hardware-wallet-threat-models/
    raw/              # 原始来源(URL、PDF、截图)
    notes/            # agent 的工作笔记
    articles/         # 编译出的结构化文章
    inventory/        # 资产清单
    datasets/         # 数据集(如果有)
    .sessions/        # 会话快照 + 用户反馈

关键在于 raw/articles/ 的对应关系——每段编译出来的结论都能追到原始来源文件。这就引出它和 RAG 的核心区别。

它和 RAG 的本质区别

很多人第一反应:「这不就是 RAG 吗?向量检索 + 生成。」

不是。区别在于谁在整理知识,以及知识的形态

维度 传统 RAG llm-wiki
知识形态 向量嵌入,散在向量库里 Markdown 文件,人类可读
整理者 离线 embedding 流程 Agent 实时编译
可追溯性 难(向量不可读) 强(每条结论指向 raw 源文件)
可审计 几乎不行 /wiki:audit 专门做信任审计
人工干预 要改向量重 embed 直接改 Markdown

RAG 的知识是给机器看的向量,你看不懂也改不了。llm-wiki 的知识是给人看的 Markdown,Agent 编译完你直接打开编辑器改,下次 Agent 读到的就是改过的版本。

这个设计带来的最大好处是可审计。研究敏感话题(比如安全威胁模型、医疗方案)时,/wiki:audit --project coldcard-threat-model 会检查每条结论的来源可信度、有没有遗漏反面证据、引用链是否完整。RAG 做不到这个——你没法审计一个向量。

五种运行时:Claude Code 是一等公民

llm-wiki 最聪明的设计是一套行为层,五个运行时壳。Claude Code 是主要适配对象(22K token 系统提示,200K 上下文),但同样的 wiki 协议可以跑在别的 agent 上:

运行时 安装方式 系统提示大小 适合场景
Claude Code claude plugin install wiki@llm-wiki ~22K tokens 完整 agent 研究
OpenAI Codex codex plugin marketplace add nvk/llm-wiki ~3K tokens OpenAI 生态
OpenCode opencode.json 配置 instructions URL ~3K tokens 多 provider
Pi --instructions SKILL.md ~1K tokens 本地模型
任意 agent 复制 AGENTS.md 看情况 通用兜底

底层逻辑是:Claude Code 的 skills/wiki-manager/SKILL.md 是「行为真理源」,Codex 和 OpenCode 的版本是脚本自动同步生成的(sync-codex-plugin.shsync-opencode-plugin.sh),不是手维护的两套代码。有测试脚本盯着同步一致性,一旦 drift 就报错。

这意味着你换 agent 不用换知识库。wiki 目录是中立的,跟着你走,agent 只是访问它的前端。

Claude Code 一行装好:

claude plugin install wiki@llm-wiki

核心命令速览

llm-wiki 的命令设计很克制,核心就这几个:

# 研究:从零创建一个 topic wiki,并行 agent 跑 1 小时
/wiki:research "gut microbiome" --new-topic --min-time 1h

# 深度模式:8 个 agent,跑 2 小时
/wiki:research "fasting" --deep --min-time 2h

# 论文式研究:给一个论点,搜集正反两面证据,最后给判决
/wiki:thesis "fiber reduces neuroinflammation via SCFAs"

# 收集:建带溯源的目录(表情包、工具、实体都行)
/wiki:collect "bitcoin memes" --wiki memes-bitcoin

# 查询:问 wiki,命中直接返回
/wiki:query "How does fiber affect mood?"
/wiki:query "compare keto and mediterranean" --deep

# 摄入:手动加一个来源
/wiki:ingest https://example.com/article

# 审计:检查一个 project 的引用链和可信度
/wiki:audit --project coldcard-threat-model

除了带冒号的「显式命令」,还有模糊路由器。直接 /wiki what do we know about CRISPR? 它能识别成 query,/wiki add https://... 识别成 ingest。这是为了贴合人自然说话的习惯。

查询还分深度。--deep 会做交叉引用,把多个 topic 里的相关结论拼起来对比着答,而不是只查单个 topic。

一个完整研究流程长什么样

把上面串起来,一个真实的研究闭环是这样跑的:

sequenceDiagram
    participant U as User
    participant A as Claude Code
    participant W as Wiki Hub
    participant S as Web Sources
    U->>A: /wiki:research "hardware wallet threats" --new-topic --min-time 1h
    A->>W: Create topic dir
    A->>S: Launch 8 parallel agents
    S-->>A: Sources found
    A->>A: Drill into subtopics each round
    A->>W: Compile articles + raw sources
    A->>W: Session checkpoint + feedback capture
    A-->>U: Wiki ready
    Note over U,W: One week later
    U->>A: /wiki:query "ColdCard specific attacks"
    A->>W: Query wiki
    W-->>A: Hit (from last research)
    A-->>U: Compiled answer with sources

第一周发 research 命令,8 个 agent 并行挖一小时,编译成 wiki 存本地。第二周直接 query,命中本地 wiki 秒回,还带着原始来源链接。

这里有个细节值得说:会话快照和反馈捕获(v0.11、v0.12 新增的)。Agent 会自动把每次会话的关键内容脱敏存到 .sessions/,你中途纠正它的偏好、否定的方案也会被捕获成 feedback 候选。下次开新会话,Agent 先 rehydrate 这些快照,等于记住了你的研究历史。不过这些快照不会自动进入正式 wiki,要你显式 @wiki feedback promote 才转正,避免噪声污染知识库。

谁适合用,谁先别急

适合的人

  • 用 Claude Code 做技术/学术深度调研的,研究周期长、需要沉淀
  • 做安全研究、威胁建模的,需要每条结论可追溯可审计
  • 企业知识库维护者,想把散落的文档系统化
  • 跨多个 agent 工具切换的人,需要中立的、可移植的知识层

先别急的人

  • 只做一次性问答的,RAG 或直接搜更轻
  • 完全不用 Claude Code / Codex 这类 agent 的,AGENTS.md 兜底能用但体验打折
  • 对磁盘空间敏感的——raw/ 会存原始来源,深研究会占不少空间

llm-wiki 最适合的场景是长周期、多轮、需要可信度的研究。一次性任务它反而重了。

几个实操注意点

装之前先知道这些坑:

iCloud 用户注意权限。很多人把 wiki 目录放 iCloud 跨设备同步。macOS 的隐私控制会卡住——stat 能成功但读 wikis.jsonOperation not permitted。解决办法不是换本地路径,而是给启动 agent 的那个 app 开 Full Disk Access,然后用 /wiki config hub-path 显式指定 iCloud 路径,别依赖默认的 ~/wiki

sandbox 环境(nono)要开额外权限。wiki 目录在项目外,sandbox 默认读不到。Claude Code / OpenCode 要加 $HOME/.config/llm-wiki 读权限 + wiki 目录读写权限;Codex 还要额外加 $HOME/.codex 读写(插件缓存要写)。

更新别用 SSH。sandbox 里的 agent 升级插件用 gh auth login --web --git-protocol https,避免 SSH host-key 提示卡住。

版本同步。如果 claude plugin update 没拉到新版(marketplace 缓存陈旧),README 给了手动同步脚本,从仓库 clone 后 cp 到插件缓存目录,重启 Claude Code 生效。

参考文档与链接

你的 Agent 现在每次都从零开始研究?装上 llm-wiki 试试,回来评论区说说效果。觉得有用点个赞让更多人看到。


作者: itech001 来源: 公众号:AI人工智能时代 网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

分享给朋友