返回博客列表

6400 Star 到 11.8k Star:用 Claude Code 跑通论文全流程的 academic-research-skills

2026-05-19T09:00:00+08:00
Claude CodeAI 写论文academic-research-skills开源项目学术写作

6400 Star 到 11.8k Star:用 Claude Code 跑通论文全流程的 academic-research-skills

研究生群里最近在疯传一个项目——用 Claude Code 写论文的一整套流水线,打包开源了。

不是那种"AI 帮你润色几段话"的玩具,是从选题调研、文献综述、大纲生成、章节撰写、同行评审到最终定稿的全链路工具。GitHub Star 从上个月的 6400 飙到现在的 11,800+,还在涨。

项目名叫 academic-research-skills(简称 ARS),作者 Edward Cheng-I Wu(GitHub: Imbad0202),用 Python 写的 Claude Code 技能包,404 次 commit,20 个版本迭代。

让我来拆解一下这个项目到底做了什么,以及它为什么能火成这样。

本文提纲

  1. 四个 Skill,串起论文全生命周期
  2. 引用核验:AI 写论文最大的坑,它怎么填
  3. 完整性闸门:7 种 AI 翻车模式检查清单
  4. 反谄媚协议:让 AI 敢于说不
  5. 三层数据隔离:不让 AI 偷看答案
  6. 安装和费用

四个 Skill,串起论文全生命周期

ARS 的核心是 4 个 Claude Code Skill,每个 Skill 内部是一个多 Agent 团队:

Skill 1:Deep Research(13 个 Agent)

负责文献调研、研究问题构建、方法论设计,还能写 PRISMA 格式的系统性综述。13 个 Agent 分工明确:

  • 文献溯源 Agent——调用 Semantic Scholar API,验证每一篇引用是否真实存在
  • 苏格拉底导师 Agent——通过对话引导你理清研究思路
  • 魔鬼代言人 Agent——专门挑刺,防止你在早期陷入思维定式

Skill 2:Academic Paper(12 个 Agent)

从大纲设计到草稿撰写,覆盖论文写作全流程。几个亮点:

  • 风格校准功能——AI 学习你过往作品的写作风格,输出更像"你写的",而不是千篇一律的 AI 味
  • 双语摘要生成
  • 图表可视化
  • 引用格式自动转换

输出支持 Markdown、DOCX、LaTeX,最终编译成 APA 7.0 或 IEEE 格式的 PDF。

Skill 3:Academic Paper Reviewer(7 个 Agent)

模拟真实学术期刊的评审流程。主编(EIC)带着三位领域审稿人,加一个魔鬼代言人,从方法论、学科视角、跨学科价值等多个维度打分。

评分标准是 0-100 的量化体系:

分数区间 审稿结论
80+ 接受
65-79 小修
50-64 大修
<50 拒稿

审稿团队还会输出详细的修改路线图,告诉你下一步该做什么。

Skill 4:Academic Pipeline(流程编排器)

把前面三个团队串联成一条 10 阶段的流水线:研究 → 写作 → 完整性检查 → 同行评审 → 修订 → 最终检查 → 发表准备 → 流程总结。

每个阶段都有明确的产物和检查点。你可以在任意阶段插入——比如已经有初稿,就从 Stage 2.5 的完整性检查开始;收到审稿意见,直接从 Stage 4 的修订切入。

引用核验:AI 写论文最大的坑,它怎么填

AI 写论文最致命的问题是什么?不是语法错误,不是逻辑漏洞,而是幻觉引用

这玩意比你想的隐蔽得多。不只是凭空编造一篇不存在的文章,还有:

  • 标题看着对,但作者和年份全错
  • DOI 是真实的,但对应的是另一篇完全不同的论文
  • 论文确实存在,但被引用的结论在原文里根本找不到

ARS 在 Deep Research 阶段就埋了引用核验机制。每篇文献都要过 Semantic Scholar API 的存在性确认,不是简单查标题,而是用 Levenshtein 相似度算法做模糊匹配,阈值设在 0.70 以上才算通过。

这个设计的背景是 2026 年 Zhao 等人的一项研究——审计了 1.11 亿条学术引用,发现了 146,932 条 AI 幻觉引用。这不是小概率事件。

完整性闸门:7 种 AI 翻车模式检查清单

在流水线的 Stage 2.5 和 Stage 4.5,有两道不可跳过的完整性闸门。闸门运行的是一份 7 项 AI 失败模式检查清单,直接来自 2026 年 Nature 上发表的 Lu 等人的"AI Scientist"研究,覆盖引用幻觉、数据捏造、方法论造假等情形。

Stage 2.5 被标记为 SUSPECTED 的问题,必须在 Stage 4.5 变成 CLEAR,或者由人工手动覆盖并留下记录。

设计逻辑很清晰:把"我相信 AI 不会出错"变成"我要求 AI 证明它没出错"。

实测中,这套机制在一篇真实论文里抓到了 15 个伪造引用和 3 个统计错误。

反谄媚协议:让 AI 敢于说不

大多数 AI 工具都有一个隐形毛病——讨好用户。你让它改,它就改,哪怕改得更差。

ARS 在审稿环节设计了专门的反谄媚机制。审稿团队里的 Devil's Advocate(魔鬼代言人)挑完刺之后,还有一个让步阈值协议

  • DA 的反驳会被评分 1-5
  • 如果低于 4 分,写作团队不允许承认

换句话说,AI 不能为了显得"好合作"就轻易让步。

同时,攻击强度在修订过程中必须保持。第一轮审稿把方法论批得体无完肤,作者修订后审稿人不能突然变温柔。评分轨迹会被追踪,任何维度的分数下降都会被标记为回归

这和软件工程里的"不引入新 Bug"原则一样——改一个地方不能搞砸另一个地方。

三层数据隔离:不让 AI 偷看答案

ARS 把数据流严格分成三层:

层级 内容 可信度
Layer 1 原始输入(可能幻觉、过时、带偏见) 默认不可信
Layer 2 通过完整性验证后的产物 已验证
Layer 3 评分标准、参考答案、金标数据 最高机密

关键点在于 Layer 3 的材料永远不能出现在写作 AI 的上下文中

具体实现上,写作团队和审稿团队分两次独立调用,中间有阶段边界隔离。写作 AI 只能收到审稿 AI 的自然语言反馈——"第二章论证跳跃,建议补充对比实验"——但它看不到原始评分标准,也不知道每个维度占多少分。

这个设计灵感来自 Anthropic 2026 年的 w2s-researcher 研究:当 AI 能读取标签数据时,结果可能不是真的泛化,而是在优化表面特征。解决方案不是更好的 Prompt,而是结构上的隔离

另外还有一点值得提:ARS 给每个产物生成一个 repro_lock 文件,记录运行时的完整配置。但文件里有一段强制声明——LLM 输出不是字节级可复现的,模型提供商会更新权重而不改模型 ID,外部 API 每天返回不同的数据。这个文件只是配置文档,不是重放保证。

这种"我不保证能复现"的诚实态度,反而比那些声称"完美复现"的工具更让人信任。

安装和费用

安装方式简单,如果你已经在用 Claude Code,两行命令搞定:

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

验证安装:

/ars-plan

然后描述你的论文主题,ARS 会启动苏格拉底对话,帮你梳理论文结构。

如果不想装 Claude Code,也可以直接把 SKILL.md 上传到 claude.ai 的项目知识库,浏览器打开就能用(单 Agent 版本,适合轻度体验)。

费用方面:完整跑完 10 个阶段,单次消耗超过 20 万输入 token 和 10 万输出 token。一篇 1.5 万字的论文,全程跑下来大约 4-6 美元。作者推荐用 Claude Opus 4.7 + Max 订阅计划(月付 100 或 200 美元)。


项目地址:github.com/Imbad0202/academic-research-skills

ARS 的设计哲学用 README 里那句话概括最准确:

"AI 是你的副驾驶,不是飞行员。"

让 AI 帮你写论文不难,难点在于怎么防止它出错、讨好和偷懒。这个项目给出了目前我见过最系统的答案。


作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

觉得文章不错?分享给更多人!