AI 相关的核心要点是什么？

本文围绕 AI、本地模型、编码、LLaMA、Qwen、Gemma、DeepSeek、Hacker News 展开，HN千人热议：本地模型能否替代云端AI编码。从双3090跑Qwen到M4 Max的挣扎，真实开发者分享硬件、模型、速度和质量的全方位体验。详细解读见正文。

1099 个赞，136 条评论：Hacker News 程序员们到底有没有用本地模型替代 Claude？

2026-06-16T22:00:00+08:00

AI本地模型编码LLaMAQwenGemmaDeepSeekHacker News

1099 个赞，136 条评论：Hacker News 程序员们到底有没有用本地模型替代 Claude？

一个月省 $100 订阅费，代价是你的代码质量下降多少？

Hacker News 上有一则帖子火了——"Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?"（有没有人真正用本地模型替代 Claude/GPT 做日常编码？）

1099 个赞，136 条评论。讨论的激烈程度说明这个问题戳到了很多开发者的痛点。

我读完了全部评论，把开发者们的真实经验整理成了这篇文章。结论可能不是你想的那样。

本文提纲

谁真的替代了，谁还在观望
最受欢迎的本地模型：Qwen 和 Gemma 领跑
硬件实测：从 RTX 3090 到 Strix Halo
速度和质量的真实差距
本地模型的真正瓶颈：不是模型，是工具链
混合策略：大多数人的最终选择
成本账：本地到底划不划算

谁真的替代了，谁还在观望

评论区大致分为三个阵营：

已替代派——少数但具体的实践者：

"我取消了 $100/月的 Claude 订阅，改用 Pi harness + Unsloth 跑的 Qwen 3.6-35B 和 Gemma 4-26B。双 RTX 3090，大约 150 tok/s。" —— horsawlarway

"90% 的编码用 Qwen 3.6 27B + OpenCode，配合自定义 Skills 和 Semble。它没有 CC 或 Codex 聪明，但足够完成大部分工作。" —— bluejay2387

"个人项目用 Pi + Qwen 3.6 27B 在 4090 上跑。公司的活还用 Claude，因为他们付钱并且要求使用。除此之外我很少碰它。" —— fortyseven

观望派——大多数人：

"我不认为你会得到很多'真正替代'的回答。不用最新最好模型的机会成本现在太高了。每个月我都研究这个问题，得出同一个结论：让本地模型达到 Claude Code sonnet/opus 的水平，所需的时间和精力根本不值得。" —— codinhood

"试了很多次，还是不行。我机器上能跑的小模型（M4 Max Mac，qwen3.6-35b 或 gemma-4-26b-qat）和 Opus/Fable 那些巨型模型完全不在一个水平。完全不在。很多人是在自欺欺人。" —— jwr

"等你哪天能买到一块 80GB 显存的 GPU，再来谈替代。本地模型总是缺那么一点大模型才有的东西。" —— system2

工具链吐槽派——一个被忽视的痛点：

"我的经验是，现在限制我们的不是模型本身，而是那些笨拙的替代工具链——队列管理、中断处理、子 Agent、目标设定，各种奇怪的功能缺失导致使用体验很差。" —— blurbleblurble

最受欢迎的本地模型：Qwen 和 Gemma 领跑

从 136 条评论中提取出的模型使用频率：

模型	提及次数	典型评价
Qwen 3.6 27B/35B	12+	"编码能力不错，单卡 3090 可跑"
Gemma 4 26B/31B	8+	"文档处理强，编码中等"
DeepSeek V4 Flash	5+	"推理模型，160 tok/s，速度快"
GLM 4.7 Flash	3+	"Agent 编码最好，但达不到 GPT 5.5 水平"
MiniMax M3	2+	"Opus 4.8 级别，但 460B 参数跑不动"

Qwen 3.6 是绝对的人气冠军。多位开发者分享了具体配置：

pierotofy：llama.cpp + Qwen3.6-35B (MTP) + OpenCode，单张 RTX 3090，"比大多数云端模型快"，质量相当于"8-12 个月前的边缘模型"
K0balt：Qwen 3.6 27B dense，"大约等于 Claude Haiku 4.5，某些任务接近 Sonnet"
stymaar：Qwen3.6-35B-A3B 在 Strix Halo 128GB 上，"出乎意料地好用"，偶尔还用 Claude 但只是处理复杂任务

Gemma 4 在文档处理场景下表现突出：

"Gemma 用双 GPU，q8@64k 上下文，做文档情感分析、摘要、校对和翻译，稳定 25 tok/s。对批处理工作流来说有点慢但可用。" —— Kostic

硬件实测：从 RTX 3090 到 Strix Halo

评论区最具体的硬件配置汇总：

硬件	模型	量化	速度	上下文
双 RTX 3090	Qwen3.6-35B + Gemma4-26B	GGUF	~150 tok/s	-
RTX 4090	Qwen 3.6 27B	-	"足够快"	-
RTX 3090 (单)	Qwen3.6-35B (MTP)	Q4	50-70 tok/s	176k
RTX 6000	Qwen 3.6 27B	-	"比我需要的快"	-
2x RTX Pro 6000 Blackwell	DeepSeek V4 Flash	-	160 tok/s	-
Strix Halo 128GB	Qwen3.6-35B-A3B	-	30 tok/s	-
M4 Max Mac	Qwen3.6-35B / Gemma4-26B	QAT	"明显慢"	-
MBP M5 Max 128GB	DeepSeek V4 Flash (via ds4)	-	"可用"	<20k LoC

一个关键发现：RTX 3090/4090 是目前性价比最高的本地编码硬件。双 3090 能跑到 150 tok/s，和云端体验接近。而 Apple Silicon 虽然内存大，但速度明显落后。

"Strix Halo 对 AI 来说感觉像个玩具。MiniMax M3 在 Opus 4.8 的水平但 460B 参数根本塞不进 128GB 内存，更别说大上下文了。" —— davide

速度和质量的真实差距

多位开发者坦诚地描述了本地模型和云端模型的差距：

能做到的：

简单函数和模块的生成
明确的、定义良好的任务
小于 20k 行代码的项目
批处理工作流（文档处理、翻译）

做不到的：

复杂系统设计和架构决策
跨文件的大型重构
长上下文理解（100 万 token 上下文窗口）
需要深度推理的调试

"本地模型可以为简单案例生成看起来合理的代码。但和我解决复杂设计问题的方式相比——那差距是巨大的。" —— jwr

"我之前的测试是把一个标量函数更新为使用 AVX512 的位矩阵转置。云端模型处理这个游刃有余。Kimi 2.6 和 GLM 5.1 都惨败了。" —— HappySweeney

速度方面，本地模型和云端的对比：

场景	本地体验	云端体验
代码补全	50-70 tok/s（够用）	100+ tok/s（流畅）
Agent 多步推理	25-30 tok/s（能等）	80+ tok/s（舒适）
大型代码库分析	内存不足，无法加载	100 万上下文轻松处理
首次响应	几秒	<1 秒

本地模型的真正瓶颈：不是模型，是工具链

blurbleblurble 的评论获得了很多赞同——当前限制不是模型本身，而是围绕模型的编码工具链。

Claude Code、Codex、Cursor 这些工具为云端模型深度优化了：

队列管理：多步任务的执行和中断
子 Agent：并行探索多条路径
目标设定：让 Agent 理解高层意图
上下文管理：智能地截断和压缩上下文

而本地模型的替代工具链——如 OpenCode、Pi harness——虽然有进步，但在这些方面还有明显差距。

"不是模型的差距，是工具的差距。Pi 和 Claude Code 之间的体验差距，比 Qwen 3.6 和 Claude 之间的质量差距还大。" —— 综合多条评论

一个有趣的解决方案是链式 Agent 工作流：

"我通过把多个'Agent'链接在工作流中取得了一些成功。每个 Agent 有不同的 prompt，使用不同的 ollama 模型。项目经理和 schema Agent 用 qwen3:14b，编码 Agent 用 qwen2.5-coder:7b。" —— cuttysnark

混合策略：大多数人的最终选择

读完所有评论，最务实的方案其实是混合策略：

日常编码（简单任务、个人项目）:
  → 本地模型（Qwen 3.6 / Gemma 4）
  → 零成本、完全离线、数据不出本机

关键路径（复杂架构、公司项目）:
  → 云端旗舰模型（Claude Opus / GPT 5.5）
  → 付费但质量保证

文档处理（批处理、翻译）:
  → 本地模型 + 大上下文
  → 不赶时间，慢慢跑

代码审查（安全、性能）:
  → 云端模型 + 本地模型交叉验证
  → 用 OpenRouter Fusion 多模型融合

多位开发者提到了这个模式：

"我仍然回退到 Codex 来处理更复杂的任务。但它已经足以让我省下每月 $100 的 Claude 订阅费。" —— bluejay2387

"我偶尔还会用 Claude，但只处理特别复杂的任务，大概占 10% 的时间。" —— stymaar

成本账：本地到底划不划算

评论区有开发者算了这笔账：

硬件成本：

双 RTX 3090 二手：~$1,500-2,000
电费：双 3090 满载约 700W，按美国电价约 $0.15/kWh，24 小时跑约 $2.5/天

云端成本：

Claude Max 订阅：$100-200/月
API 调用：重度使用 $50-150/月

回本周期：

硬件 $2,000 / 每月省 $100 = 约 20 个月
加上电费 $75/月 → 每月实际省 $25 → 约 80 个月回本

"我试过本地跑，但考虑到我住的地方电费很高，隐性回本期大概在 1 年左右。不太值得。" —— hegdeezy

"我考虑过投资更好的硬件，但算完账之后发现直接付 DeepSeek 的 API 费用更便宜。" —— BiraIgnacio

不过，有几个场景本地方案的经济性更好：

隐私敏感代码：数据不出机器的价值无法用金钱衡量
离线环境：飞机上、偏远地区、网络受限环境
大批量批处理：文档翻译、代码分析等不需要实时交互的任务
学习和实验：了解模型工作原理，调试 prompt

你在用本地模型编码吗？什么硬件、什么模型、什么场景？评论区聊聊你的配置和体验。觉得有用就点个赞，让更多人看到这篇实战汇总。

参考文档与链接

原始讨论

Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding? — 1099 点，136 条评论的完整讨论

提到的工具和项目

antirez/ds4 — Redis 作者开发的本地编码 Agent 工具
pierotofy/LocalCodingLLM — 单 RTX 3090 本地编码 LLM 配置指南
anubhavgupta/llama-cpp-manager — llama.cpp 配置管理工具
OpenCode — 开源编码 Agent，支持本地模型
Pi harness — 编码 Agent 框架，支持自定义模型后端

本地模型相关

Unsloth — 高效模型微调和 GGUF 量化工具
llama.cpp — 最流行的本地 LLM 推理引擎
Ollama — 本地 LLM 运行工具
Qwen 3.6 — 通义千问最新模型系列
Gemma 4 — Google 最新开源模型

OpenRouter 多模型方案

OpenRouter Fusion — 多模型并行融合，本地 + 云端混合

作者: itech001
来源: 公众号：AI人工智能时代
网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。

1099 个赞，136 条评论：Hacker News 程序员们到底有没有用本地模型替代 Claude？

1099 个赞，136 条评论：Hacker News 程序员们到底有没有用本地模型替代 Claude？

本文提纲

谁真的替代了，谁还在观望

最受欢迎的本地模型：Qwen 和 Gemma 领跑

硬件实测：从 RTX 3090 到 Strix Halo

速度和质量的真实差距

本地模型的真正瓶颈：不是模型，是工具链

混合策略：大多数人的最终选择

成本账：本地到底划不划算

参考文档与链接

相关阅读

如果 AI 生成的代码 100% 正确，我们还需要新的编程语言吗？

AI 技术日报 - 2026-06-04

AI 技术日报 - 2026-06-02

DeepSeek 悄悄挂出 Agent Harness 岗位：Model + Harness = Agent，要做智能体产品了？