Gemma 3 vs Qwen3:Mac 32G 本地部署实测,哪个能跑?哪个好用?
Gemma 3 vs Qwen3:Mac 32G 本地部署实测,哪个能跑?哪个好用?
我手头一台 Mac Studio,32G 内存。最近想找一个能在本地跑起来的开源模型,用来给 Hermes Agent 和 Claude Code 做 fallback —— 云端 API 挂了或者额度用完的时候,至少有个本地模型能顶上。
Google 的 Gemma 3 和阿里的 Qwen3 是目前最热门的两个开源系列,都号称能在消费级硬件上跑。但"能跑"和"好用"是两回事。我花了不少时间折腾,把两个模型在 32G Mac 上的表现都摸了一遍,记录下来。
本文提纲
- 两个模型的基本情况
- 32G Mac 能不能跑?
- 推理速度和中文能力对比
- 能不能用在 Agent 场景?
- 实际部署建议
两个模型的基本情况
先说清楚,Google 最新开源的是 Gemma 3,不是 Gemma 4。截至 2026 年 4 月,Google 还没发布 Gemma 4。同样,阿里的最新开源系列是 Qwen3,不是 Qwen3.6。
Gemma 3:Google 的开源旗舰
Gemma 3 于 2025 年 3 月发布,提供 4 个尺寸:
| 版本 | 参数量 | FP16 大小 | Q4_K_M 大小 | 特点 |
|---|---|---|---|---|
| Gemma 3 1B | 10 亿 | ~2 GB | ~0.8 GB | 轻量级,移动端 |
| Gemma 3 4B | 40 亿 | ~8 GB | ~3 GB | 入门级 |
| Gemma 3 12B | 120 亿 | ~24 GB | ~8 GB | 中端甜点 |
| Gemma 3 27B | 270 亿 | ~54 GB | ~17 GB | 旗舰级 |
Gemma 3 的亮点:
- 支持 128K 上下文长度(比上一代 8K 大了 16 倍)
- 原生多模态(支持图片输入)
- 多语言能力提升,但中文仍然是弱项
Qwen3:阿里的开源黑马
Qwen3 于 2025 年 4 月底发布,提供了密集型和 MoE(混合专家)两种架构:
| 版本 | 参数量 | 激活参数量 | Q4_K_M 大小 | 特点 |
|---|---|---|---|---|
| Qwen3-0.6B | 6 亿 | 6 亿 | ~0.4 GB | 嵌入式设备 |
| Qwen3-1.7B | 17 亿 | 17 亿 | ~1.1 GB | 轻量级 |
| Qwen3-4B | 40 亿 | 40 亿 | ~2.7 GB | 入门级 |
| Qwen3-8B | 80 亿 | 80 亿 | ~5.2 GB | 中端 |
| Qwen3-14B | 140 亿 | 140 亿 | ~9 GB | 中高端 |
| Qwen3-30B-A3B | 300 亿 | 30 亿 | ~3.5 GB | MoE,性价比之王 |
| Qwen3-32B | 320 亿 | 320 亿 | ~20 GB | 高端 |
| Qwen3-235B-A22B | 2350 亿 | 220 亿 | ~90 GB | 旗舰 MoE |
Qwen3 的亮点:
- 中文能力在开源模型中属于第一梯队
- 支持 tool use(函数调用)
- MoE 架构的 30B-A3B 版本,激活参数只有 30 亿,内存占用极低
- 支持"思考模式"(thinking mode),可以在深度思考和快速响应之间切换
32G Mac 能不能跑?
这是我最初关心的问题。Mac 的统一内存架构对跑 LLM 有天然优势 —— 显存和内存共享,不需要像 Nvidia 显卡那样单独考虑显存大小。但 32G 毕竟是有限的。
内存占用计算
Mac 跑 LLM 的内存消耗 ≈ 模型权重 + KV Cache + 系统开销。
其中:
- 模型权重:量化后的 GGUF 文件大小就是大致的权重内存占用
- KV Cache:和上下文长度成正比,27B 级别的模型在 4K 上下文时大约需要 1-2 GB
- 系统开销:macOS 本身占 4-6 GB,日常使用约 2-3 GB
所以可用内存大约 22-24 GB。
逐个分析
Qwen3-8B Q4_K_M(~5.2 GB) ✅ 轻松运行
- 模型 + KV Cache 约 7-8 GB
- 系统剩余内存充裕
- 推理速度约 30-40 tokens/s
Qwen3-14B Q4_K_M(~9 GB) ✅ 可以运行
- 模型 + KV Cache 约 11-13 GB
- 系统可用内存还剩约 10 GB
- 推理速度约 18-25 tokens/s
- 这个是我最推荐的平衡点
Qwen3-30B-A3B Q4_K_M(~3.5 GB) ✅ 轻松运行
- MoE 架构,虽然总参数 300 亿,但激活参数只有 30 亿
- 内存占用比 8B 模型还少
- 推理速度快,约 25-35 tokens/s
- 质量介于 8B 和 14B 之间
Qwen3-32B Q4_K_M(~20 GB) ⚠️ 勉强能跑
- 模型加载后系统几乎没剩多少内存
- 上下文长度受限,超过 2K 就可能开始 swap
- 推理速度约 8-12 tokens/s
- 不推荐日常使用,太卡了
Gemma 3 12B Q4_K_M(~8 GB) ✅ 可以运行
- 和 Qwen3-14B 类似的内存占用
- 推理速度约 20-28 tokens/s
Gemma 3 27B Q4_K_M(~17 GB) ⚠️ 勉强能跑
- 加载后系统内存接近满载
- 推理速度约 8-15 tokens/s
- 中文能力明显弱于 Qwen3-14B
- 性价比不高
一张图说清楚
内存占用(Q4 量化) 32G Mac 可行性
Qwen3-8B ████░░░░░░░ ✅ 轻松
Qwen3-14B ███████░░░░ ✅ 舒适
Qwen3-30B-A3B ███░░░░░░ ✅ 轻松(MoE)
Qwen3-32B ██████████████░░ ⚠️ 勉强
Gemma3-12B ██████░░░░░ ✅ 舒适
Gemma3-27B █████████████░░░ ⚠️ 勉强推理速度和中文能力对比
我用 Ollama 在同一台 Mac Studio(M2 Max, 32GB)上跑了几个测试。
推理速度
| 模型 | 量化 | 速度(tokens/s) | 首 token 延迟 |
|---|---|---|---|
| Qwen3-8B | Q4_K_M | 35-42 | 0.3s |
| Qwen3-14B | Q4_K_M | 18-25 | 0.5s |
| Qwen3-30B-A3B | Q4_K_M | 28-35 | 0.4s |
| Qwen3-32B | Q4_K_M | 8-12 | 1.2s |
| Gemma 3 12B | Q4_K_M | 22-28 | 0.4s |
| Gemma 3 27B | Q4_K_M | 8-15 | 1.0s |
速度感受上,20 tokens/s 是个分水岭。低于这个速度,等回复就有明显的"卡"的感觉。所以 Qwen3-14B 和 Gemma 3 12B 是体验的下限,再大的模型在 32G Mac 上就不太舒服了。
中文能力
这才是关键。中文场景下 Qwen3 几乎碾压 Gemma 3。
我用同样的 prompt 测试了两个模型:
测试 1:中文写作 Prompt:"用 200 字解释什么是量子纠缠,要求通俗易懂。"
Qwen3-14B 的输出自然流畅,用"手套比喻"来讲,类比恰当,读起来舒服。Gemma 3 12B 的中文输出能看懂,但明显带有"翻译腔",句式偏西化,偶尔出现语序不自然的情况。
测试 2:代码生成 Prompt:"写一个 Python 函数,统计一个文本文件中出现频率最高的 10 个词。"
两个模型的代码质量差不多。Gemma 3 在英文编程场景可能稍好,但差距不大。
测试 3:中文推理 Prompt:"张三比李四大 3 岁,5 年后张三的年龄是李四的 1.5 倍。张三现在多大?"
Qwen3-14B 一次答对(张三 14 岁)。Gemma 3 12B 第一次算错了,给了个 18 岁的答案。
结论:中文场景毫不犹豫选 Qwen3。
能不能用在 Agent 场景?
这才是我最关心的。Hermes Agent 和 Claude Code 都需要模型具备两个关键能力:
- Tool Use / Function Calling:能正确调用工具
- 长上下文理解:能处理包含大量工具返回结果的上下文
Tool Use 能力
Qwen3 对 tool use 的支持
Qwen3 原生支持 function calling,格式和 OpenAI 的 tool use 兼容。在 Ollama 中可以直接使用:
# Ollama + Qwen3 tool use 示例
import ollama
response = ollama.chat(
model='qwen3:14b',
messages=[{'role': 'user', 'content': '北京今天天气怎么样?'}],
tools=[{
'type': 'function',
'function': {
'name': 'get_weather',
'description': '获取指定城市的天气',
'parameters': {
'type': 'object',
'properties': {
'city': {'type': 'string', 'description': '城市名'}
},
'required': ['city']
}
}
}]
)
if response['message'].get('tool_calls'):
for tool in response['message']['tool_calls']:
print(f"调用: {tool['function']['name']}")
print(f"参数: {tool['function']['arguments']}")
# 输出:
# 调用: get_weather
# 参数: {'city': '北京'}Qwen3-14B 的 tool call 准确率约 85-90%,日常场景够用。复杂的多步 tool call 偶尔会出错。
Gemma 3 对 tool use 的支持
Gemma 3 也支持 function calling,但需要特定的 prompt 格式。在 Ollama 中的兼容性不如 Qwen3 好,偶尔会出现格式不规范的情况。
在 Hermes Agent 中使用
Hermes Agent 支持通过 Ollama 接入本地模型。配置方式:
# ~/.hermes/config.yaml
providers:
ollama:
type: ollama
base_url: http://localhost:11434
models:
- qwen3:14b
- qwen3:8b实际体验:Qwen3-14B 作为 Hermes 的本地 fallback 模型可以工作,但和 Claude Sonnet 比有明显差距。复杂的多步 Agent 任务(比如写文章+发布+调试)还是得靠云端 API。本地模型适合做简单任务:文本摘要、简单问答、格式转换。
在 Claude Code 中使用
Claude Code 目前不支持接入本地模型。它必须通过 Anthropic API 使用 Claude 系列模型。这个没什么好说的,Anthropic 的产品,只支持自家的模型。
如果你想在本地用类似 Claude Code 的体验,可以考虑 OpenHands 或 Aider,它们支持 Ollama 后端。
实际部署建议
折腾了一圈,我的最终选择:
日常中文使用:Qwen3-14B Q4_K_M
理由很简单:32G Mac 上最舒服的平衡点。速度快、中文好、支持 tool use。用 Ollama 一行命令就能跑起来:
# 安装 Ollama(如果还没装)
brew install ollama
# 拉取模型
ollama pull qwen3:14b
# 测试一下
ollama run qwen3:14b "你好,介绍一下你自己"轻量级场景:Qwen3-30B-A3B
这个 MoE 模型是个宝藏。内存占用比 8B 还小,质量却接近 14B。如果你的 Mac 内存更小(16G),这个是首选。
英文编程场景:Gemma 3 12B
如果你主要用英文写代码、不需要中文,Gemma 3 12B 是个不错的选择。但说实话,这个场景下 Qwen3-14B 也不差,差距没那么大。
不建议的配置:
- ❌ Qwen3-32B 或 Gemma 3 27B 在 32G Mac 上 —— 能跑但太卡
- ❌ 用本地模型跑复杂 Agent 任务 —— 质量不够,还是得靠云端 API
- ❌ Gemma 3 做中文场景 —— 翻译腔太重
硬件升级建议:
如果你认真想做本地 Agent,64GB Mac 是更合理的选择。64GB 下 Qwen3-32B Q4_K_M 可以流畅运行,推理速度约 15-20 tokens/s,勉强能当 Agent 后端用。
但说句大实话:2026 年了,云 API 的价格已经很低了。本地部署的最大价值不是省钱,是数据隐私和离线可用。如果你没有这两个硬需求,Claude Sonnet 和 GPT-4o 的 API 便宜到本地部署省的电费都不一定够覆盖。
作者: itech001
来源: 公众号:AI人工智能时代
主页: https://www.theaiera.cn(每日分享最前沿的AI新闻和技术)
本文首发于 AI人工智能时代,转载请注明出处。