6400 Star 到 11.8k Star:用 Claude Code 跑通论文全流程的 academic-research-skills
6400 Star 到 11.8k Star:用 Claude Code 跑通论文全流程的 academic-research-skills
研究生群里最近在疯传一个项目——用 Claude Code 写论文的一整套流水线,打包开源了。
不是那种"AI 帮你润色几段话"的玩具,是从选题调研、文献综述、大纲生成、章节撰写、同行评审到最终定稿的全链路工具。GitHub Star 从上个月的 6400 飙到现在的 11,800+,还在涨。
项目名叫 academic-research-skills(简称 ARS),作者 Edward Cheng-I Wu(GitHub: Imbad0202),用 Python 写的 Claude Code 技能包,404 次 commit,20 个版本迭代。
让我来拆解一下这个项目到底做了什么,以及它为什么能火成这样。
本文提纲
- 四个 Skill,串起论文全生命周期
- 引用核验:AI 写论文最大的坑,它怎么填
- 完整性闸门:7 种 AI 翻车模式检查清单
- 反谄媚协议:让 AI 敢于说不
- 三层数据隔离:不让 AI 偷看答案
- 安装和费用
四个 Skill,串起论文全生命周期
ARS 的核心是 4 个 Claude Code Skill,每个 Skill 内部是一个多 Agent 团队:
Skill 1:Deep Research(13 个 Agent)
负责文献调研、研究问题构建、方法论设计,还能写 PRISMA 格式的系统性综述。13 个 Agent 分工明确:
- 文献溯源 Agent——调用 Semantic Scholar API,验证每一篇引用是否真实存在
- 苏格拉底导师 Agent——通过对话引导你理清研究思路
- 魔鬼代言人 Agent——专门挑刺,防止你在早期陷入思维定式
Skill 2:Academic Paper(12 个 Agent)
从大纲设计到草稿撰写,覆盖论文写作全流程。几个亮点:
- 风格校准功能——AI 学习你过往作品的写作风格,输出更像"你写的",而不是千篇一律的 AI 味
- 双语摘要生成
- 图表可视化
- 引用格式自动转换
输出支持 Markdown、DOCX、LaTeX,最终编译成 APA 7.0 或 IEEE 格式的 PDF。
Skill 3:Academic Paper Reviewer(7 个 Agent)
模拟真实学术期刊的评审流程。主编(EIC)带着三位领域审稿人,加一个魔鬼代言人,从方法论、学科视角、跨学科价值等多个维度打分。
评分标准是 0-100 的量化体系:
| 分数区间 | 审稿结论 |
|---|---|
| 80+ | 接受 |
| 65-79 | 小修 |
| 50-64 | 大修 |
| <50 | 拒稿 |
审稿团队还会输出详细的修改路线图,告诉你下一步该做什么。
Skill 4:Academic Pipeline(流程编排器)
把前面三个团队串联成一条 10 阶段的流水线:研究 → 写作 → 完整性检查 → 同行评审 → 修订 → 最终检查 → 发表准备 → 流程总结。
每个阶段都有明确的产物和检查点。你可以在任意阶段插入——比如已经有初稿,就从 Stage 2.5 的完整性检查开始;收到审稿意见,直接从 Stage 4 的修订切入。
引用核验:AI 写论文最大的坑,它怎么填
AI 写论文最致命的问题是什么?不是语法错误,不是逻辑漏洞,而是幻觉引用。
这玩意比你想的隐蔽得多。不只是凭空编造一篇不存在的文章,还有:
- 标题看着对,但作者和年份全错
- DOI 是真实的,但对应的是另一篇完全不同的论文
- 论文确实存在,但被引用的结论在原文里根本找不到
ARS 在 Deep Research 阶段就埋了引用核验机制。每篇文献都要过 Semantic Scholar API 的存在性确认,不是简单查标题,而是用 Levenshtein 相似度算法做模糊匹配,阈值设在 0.70 以上才算通过。
这个设计的背景是 2026 年 Zhao 等人的一项研究——审计了 1.11 亿条学术引用,发现了 146,932 条 AI 幻觉引用。这不是小概率事件。
完整性闸门:7 种 AI 翻车模式检查清单
在流水线的 Stage 2.5 和 Stage 4.5,有两道不可跳过的完整性闸门。闸门运行的是一份 7 项 AI 失败模式检查清单,直接来自 2026 年 Nature 上发表的 Lu 等人的"AI Scientist"研究,覆盖引用幻觉、数据捏造、方法论造假等情形。
Stage 2.5 被标记为 SUSPECTED 的问题,必须在 Stage 4.5 变成 CLEAR,或者由人工手动覆盖并留下记录。
设计逻辑很清晰:把"我相信 AI 不会出错"变成"我要求 AI 证明它没出错"。
实测中,这套机制在一篇真实论文里抓到了 15 个伪造引用和 3 个统计错误。
反谄媚协议:让 AI 敢于说不
大多数 AI 工具都有一个隐形毛病——讨好用户。你让它改,它就改,哪怕改得更差。
ARS 在审稿环节设计了专门的反谄媚机制。审稿团队里的 Devil's Advocate(魔鬼代言人)挑完刺之后,还有一个让步阈值协议:
- DA 的反驳会被评分 1-5
- 如果低于 4 分,写作团队不允许承认
换句话说,AI 不能为了显得"好合作"就轻易让步。
同时,攻击强度在修订过程中必须保持。第一轮审稿把方法论批得体无完肤,作者修订后审稿人不能突然变温柔。评分轨迹会被追踪,任何维度的分数下降都会被标记为回归。
这和软件工程里的"不引入新 Bug"原则一样——改一个地方不能搞砸另一个地方。
三层数据隔离:不让 AI 偷看答案
ARS 把数据流严格分成三层:
| 层级 | 内容 | 可信度 |
|---|---|---|
| Layer 1 | 原始输入(可能幻觉、过时、带偏见) | 默认不可信 |
| Layer 2 | 通过完整性验证后的产物 | 已验证 |
| Layer 3 | 评分标准、参考答案、金标数据 | 最高机密 |
关键点在于 Layer 3 的材料永远不能出现在写作 AI 的上下文中。
具体实现上,写作团队和审稿团队分两次独立调用,中间有阶段边界隔离。写作 AI 只能收到审稿 AI 的自然语言反馈——"第二章论证跳跃,建议补充对比实验"——但它看不到原始评分标准,也不知道每个维度占多少分。
这个设计灵感来自 Anthropic 2026 年的 w2s-researcher 研究:当 AI 能读取标签数据时,结果可能不是真的泛化,而是在优化表面特征。解决方案不是更好的 Prompt,而是结构上的隔离。
另外还有一点值得提:ARS 给每个产物生成一个 repro_lock 文件,记录运行时的完整配置。但文件里有一段强制声明——LLM 输出不是字节级可复现的,模型提供商会更新权重而不改模型 ID,外部 API 每天返回不同的数据。这个文件只是配置文档,不是重放保证。
这种"我不保证能复现"的诚实态度,反而比那些声称"完美复现"的工具更让人信任。
安装和费用
安装方式简单,如果你已经在用 Claude Code,两行命令搞定:
/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills验证安装:
/ars-plan然后描述你的论文主题,ARS 会启动苏格拉底对话,帮你梳理论文结构。
如果不想装 Claude Code,也可以直接把 SKILL.md 上传到 claude.ai 的项目知识库,浏览器打开就能用(单 Agent 版本,适合轻度体验)。
费用方面:完整跑完 10 个阶段,单次消耗超过 20 万输入 token 和 10 万输出 token。一篇 1.5 万字的论文,全程跑下来大约 4-6 美元。作者推荐用 Claude Opus 4.7 + Max 订阅计划(月付 100 或 200 美元)。
项目地址:github.com/Imbad0202/academic-research-skills
ARS 的设计哲学用 README 里那句话概括最准确:
"AI 是你的副驾驶,不是飞行员。"
让 AI 帮你写论文不难,难点在于怎么防止它出错、讨好和偷懒。这个项目给出了目前我见过最系统的答案。
作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。