返回博客列表

1099 个赞,136 条评论:Hacker News 程序员们到底有没有用本地模型替代 Claude?

2026-06-16T22:00:00+08:00
AI本地模型编码LLaMAQwenGemmaDeepSeekHacker News

1099 个赞,136 条评论:Hacker News 程序员们到底有没有用本地模型替代 Claude?

一个月省 $100 订阅费,代价是你的代码质量下降多少?

Hacker News 上有一则帖子火了——"Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?"(有没有人真正用本地模型替代 Claude/GPT 做日常编码?)

1099 个赞,136 条评论。讨论的激烈程度说明这个问题戳到了很多开发者的痛点。

我读完了全部评论,把开发者们的真实经验整理成了这篇文章。结论可能不是你想的那样。

本文提纲

  1. 谁真的替代了,谁还在观望
  2. 最受欢迎的本地模型:Qwen 和 Gemma 领跑
  3. 硬件实测:从 RTX 3090 到 Strix Halo
  4. 速度和质量的真实差距
  5. 本地模型的真正瓶颈:不是模型,是工具链
  6. 混合策略:大多数人的最终选择
  7. 成本账:本地到底划不划算

谁真的替代了,谁还在观望

评论区大致分为三个阵营:

已替代派——少数但具体的实践者:

"我取消了 $100/月的 Claude 订阅,改用 Pi harness + Unsloth 跑的 Qwen 3.6-35B 和 Gemma 4-26B。双 RTX 3090,大约 150 tok/s。" —— horsawlarway

"90% 的编码用 Qwen 3.6 27B + OpenCode,配合自定义 Skills 和 Semble。它没有 CC 或 Codex 聪明,但足够完成大部分工作。" —— bluejay2387

"个人项目用 Pi + Qwen 3.6 27B 在 4090 上跑。公司的活还用 Claude,因为他们付钱并且要求使用。除此之外我很少碰它。" —— fortyseven

观望派——大多数人:

"我不认为你会得到很多'真正替代'的回答。不用最新最好模型的机会成本现在太高了。每个月我都研究这个问题,得出同一个结论:让本地模型达到 Claude Code sonnet/opus 的水平,所需的时间和精力根本不值得。" —— codinhood

"试了很多次,还是不行。我机器上能跑的小模型(M4 Max Mac,qwen3.6-35b 或 gemma-4-26b-qat)和 Opus/Fable 那些巨型模型完全不在一个水平。完全不在。很多人是在自欺欺人。" —— jwr

"等你哪天能买到一块 80GB 显存的 GPU,再来谈替代。本地模型总是缺那么一点大模型才有的东西。" —— system2

工具链吐槽派——一个被忽视的痛点:

"我的经验是,现在限制我们的不是模型本身,而是那些笨拙的替代工具链——队列管理、中断处理、子 Agent、目标设定,各种奇怪的功能缺失导致使用体验很差。" —— blurbleblurble

最受欢迎的本地模型:Qwen 和 Gemma 领跑

从 136 条评论中提取出的模型使用频率:

模型 提及次数 典型评价
Qwen 3.6 27B/35B 12+ "编码能力不错,单卡 3090 可跑"
Gemma 4 26B/31B 8+ "文档处理强,编码中等"
DeepSeek V4 Flash 5+ "推理模型,160 tok/s,速度快"
GLM 4.7 Flash 3+ "Agent 编码最好,但达不到 GPT 5.5 水平"
MiniMax M3 2+ "Opus 4.8 级别,但 460B 参数跑不动"

Qwen 3.6 是绝对的人气冠军。多位开发者分享了具体配置:

  • pierotofy:llama.cpp + Qwen3.6-35B (MTP) + OpenCode,单张 RTX 3090,"比大多数云端模型快",质量相当于"8-12 个月前的边缘模型"
  • K0balt:Qwen 3.6 27B dense,"大约等于 Claude Haiku 4.5,某些任务接近 Sonnet"
  • stymaar:Qwen3.6-35B-A3B 在 Strix Halo 128GB 上,"出乎意料地好用",偶尔还用 Claude 但只是处理复杂任务

Gemma 4 在文档处理场景下表现突出:

"Gemma 用双 GPU,q8@64k 上下文,做文档情感分析、摘要、校对和翻译,稳定 25 tok/s。对批处理工作流来说有点慢但可用。" —— Kostic

硬件实测:从 RTX 3090 到 Strix Halo

评论区最具体的硬件配置汇总:

硬件 模型 量化 速度 上下文
双 RTX 3090 Qwen3.6-35B + Gemma4-26B GGUF ~150 tok/s -
RTX 4090 Qwen 3.6 27B - "足够快" -
RTX 3090 (单) Qwen3.6-35B (MTP) Q4 50-70 tok/s 176k
RTX 6000 Qwen 3.6 27B - "比我需要的快" -
2x RTX Pro 6000 Blackwell DeepSeek V4 Flash - 160 tok/s -
Strix Halo 128GB Qwen3.6-35B-A3B - 30 tok/s -
M4 Max Mac Qwen3.6-35B / Gemma4-26B QAT "明显慢" -
MBP M5 Max 128GB DeepSeek V4 Flash (via ds4) - "可用" <20k LoC

一个关键发现:RTX 3090/4090 是目前性价比最高的本地编码硬件。双 3090 能跑到 150 tok/s,和云端体验接近。而 Apple Silicon 虽然内存大,但速度明显落后。

"Strix Halo 对 AI 来说感觉像个玩具。MiniMax M3 在 Opus 4.8 的水平但 460B 参数根本塞不进 128GB 内存,更别说大上下文了。" —— davide

速度和质量的真实差距

多位开发者坦诚地描述了本地模型和云端模型的差距:

能做到的

  • 简单函数和模块的生成
  • 明确的、定义良好的任务
  • 小于 20k 行代码的项目
  • 批处理工作流(文档处理、翻译)

做不到的

  • 复杂系统设计和架构决策
  • 跨文件的大型重构
  • 长上下文理解(100 万 token 上下文窗口)
  • 需要深度推理的调试

"本地模型可以为简单案例生成看起来合理的代码。但和我解决复杂设计问题的方式相比——那差距是巨大的。" —— jwr

"我之前的测试是把一个标量函数更新为使用 AVX512 的位矩阵转置。云端模型处理这个游刃有余。Kimi 2.6 和 GLM 5.1 都惨败了。" —— HappySweeney

速度方面,本地模型和云端的对比:

场景 本地体验 云端体验
代码补全 50-70 tok/s(够用) 100+ tok/s(流畅)
Agent 多步推理 25-30 tok/s(能等) 80+ tok/s(舒适)
大型代码库分析 内存不足,无法加载 100 万上下文轻松处理
首次响应 几秒 <1 秒

本地模型的真正瓶颈:不是模型,是工具链

blurbleblurble 的评论获得了很多赞同——当前限制不是模型本身,而是围绕模型的编码工具链

Claude Code、Codex、Cursor 这些工具为云端模型深度优化了:

  • 队列管理:多步任务的执行和中断
  • 子 Agent:并行探索多条路径
  • 目标设定:让 Agent 理解高层意图
  • 上下文管理:智能地截断和压缩上下文

而本地模型的替代工具链——如 OpenCode、Pi harness——虽然有进步,但在这些方面还有明显差距。

"不是模型的差距,是工具的差距。Pi 和 Claude Code 之间的体验差距,比 Qwen 3.6 和 Claude 之间的质量差距还大。" —— 综合多条评论

一个有趣的解决方案是链式 Agent 工作流

"我通过把多个'Agent'链接在工作流中取得了一些成功。每个 Agent 有不同的 prompt,使用不同的 ollama 模型。项目经理和 schema Agent 用 qwen3:14b,编码 Agent 用 qwen2.5-coder:7b。" —— cuttysnark

混合策略:大多数人的最终选择

读完所有评论,最务实的方案其实是混合策略

日常编码(简单任务、个人项目):
  → 本地模型(Qwen 3.6 / Gemma 4)
  → 零成本、完全离线、数据不出本机

关键路径(复杂架构、公司项目):
  → 云端旗舰模型(Claude Opus / GPT 5.5)
  → 付费但质量保证

文档处理(批处理、翻译):
  → 本地模型 + 大上下文
  → 不赶时间,慢慢跑

代码审查(安全、性能):
  → 云端模型 + 本地模型交叉验证
  → 用 OpenRouter Fusion 多模型融合

多位开发者提到了这个模式:

"我仍然回退到 Codex 来处理更复杂的任务。但它已经足以让我省下每月 $100 的 Claude 订阅费。" —— bluejay2387

"我偶尔还会用 Claude,但只处理特别复杂的任务,大概占 10% 的时间。" —— stymaar

成本账:本地到底划不划算

评论区有开发者算了这笔账:

硬件成本

  • 双 RTX 3090 二手:~$1,500-2,000
  • 电费:双 3090 满载约 700W,按美国电价约 $0.15/kWh,24 小时跑约 $2.5/天

云端成本

  • Claude Max 订阅:$100-200/月
  • API 调用:重度使用 $50-150/月

回本周期

  • 硬件 $2,000 / 每月省 $100 = 约 20 个月
  • 加上电费 $75/月 → 每月实际省 $25 → 约 80 个月回本

"我试过本地跑,但考虑到我住的地方电费很高,隐性回本期大概在 1 年左右。不太值得。" —— hegdeezy

"我考虑过投资更好的硬件,但算完账之后发现直接付 DeepSeek 的 API 费用更便宜。" —— BiraIgnacio

不过,有几个场景本地方案的经济性更好:

  • 隐私敏感代码:数据不出机器的价值无法用金钱衡量
  • 离线环境:飞机上、偏远地区、网络受限环境
  • 大批量批处理:文档翻译、代码分析等不需要实时交互的任务
  • 学习和实验:了解模型工作原理,调试 prompt

你在用本地模型编码吗?什么硬件、什么模型、什么场景?评论区聊聊你的配置和体验。觉得有用就点个赞,让更多人看到这篇实战汇总。


参考文档与链接

原始讨论

提到的工具和项目

本地模型相关

  • Unsloth — 高效模型微调和 GGUF 量化工具
  • llama.cpp — 最流行的本地 LLM 推理引擎
  • Ollama — 本地 LLM 运行工具
  • Qwen 3.6 — 通义千问最新模型系列
  • Gemma 4 — Google 最新开源模型

OpenRouter 多模型方案


作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

觉得文章不错?分享给更多人!