Gemma 3 vs Qwen3：Mac 32G 本地部署实测，哪个能跑？哪个好用？

我手头一台 Mac Studio，32G 内存。最近想找一个能在本地跑起来的开源模型，用来给 Hermes Agent 和 Claude Code 做 fallback —— 云端 API 挂了或者额度用完的时候，至少有个本地模型能顶上。

Google 的 Gemma 3 和阿里的 Qwen3 是目前最热门的两个开源系列，都号称能在消费级硬件上跑。但"能跑"和"好用"是两回事。我花了不少时间折腾，把两个模型在 32G Mac 上的表现都摸了一遍，记录下来。

本文提纲

两个模型的基本情况
32G Mac 能不能跑？
推理速度和中文能力对比
能不能用在 Agent 场景？
实际部署建议

两个模型的基本情况

先说清楚，Google 最新开源的是 Gemma 3，不是 Gemma 4。截至 2026 年 4 月，Google 还没发布 Gemma 4。同样，阿里的最新开源系列是 Qwen3，不是 Qwen3.6。

Gemma 3：Google 的开源旗舰

Gemma 3 于 2025 年 3 月发布，提供 4 个尺寸：

版本	参数量	FP16 大小	Q4_K_M 大小	特点
Gemma 3 1B	10 亿	~2 GB	~0.8 GB	轻量级，移动端
Gemma 3 4B	40 亿	~8 GB	~3 GB	入门级
Gemma 3 12B	120 亿	~24 GB	~8 GB	中端甜点
Gemma 3 27B	270 亿	~54 GB	~17 GB	旗舰级

Gemma 3 的亮点：

支持 128K 上下文长度（比上一代 8K 大了 16 倍）
原生多模态（支持图片输入）
多语言能力提升，但中文仍然是弱项

Qwen3：阿里的开源黑马

Qwen3 于 2025 年 4 月底发布，提供了密集型和 MoE（混合专家）两种架构：

版本	参数量	激活参数量	Q4_K_M 大小	特点
Qwen3-0.6B	6 亿	6 亿	~0.4 GB	嵌入式设备
Qwen3-1.7B	17 亿	17 亿	~1.1 GB	轻量级
Qwen3-4B	40 亿	40 亿	~2.7 GB	入门级
Qwen3-8B	80 亿	80 亿	~5.2 GB	中端
Qwen3-14B	140 亿	140 亿	~9 GB	中高端
Qwen3-30B-A3B	300 亿	30 亿	~3.5 GB	MoE，性价比之王
Qwen3-32B	320 亿	320 亿	~20 GB	高端
Qwen3-235B-A22B	2350 亿	220 亿	~90 GB	旗舰 MoE

Qwen3 的亮点：

中文能力在开源模型中属于第一梯队
支持 tool use（函数调用）
MoE 架构的 30B-A3B 版本，激活参数只有 30 亿，内存占用极低
支持"思考模式"（thinking mode），可以在深度思考和快速响应之间切换

32G Mac 能不能跑？

这是我最初关心的问题。Mac 的统一内存架构对跑 LLM 有天然优势 —— 显存和内存共享，不需要像 Nvidia 显卡那样单独考虑显存大小。但 32G 毕竟是有限的。

内存占用计算

Mac 跑 LLM 的内存消耗 ≈ 模型权重 + KV Cache + 系统开销。

其中：

模型权重：量化后的 GGUF 文件大小就是大致的权重内存占用
KV Cache：和上下文长度成正比，27B 级别的模型在 4K 上下文时大约需要 1-2 GB
系统开销：macOS 本身占 4-6 GB，日常使用约 2-3 GB

所以可用内存大约 22-24 GB。

逐个分析

Qwen3-8B Q4_K_M（~5.2 GB） ✅ 轻松运行

模型 + KV Cache 约 7-8 GB
系统剩余内存充裕
推理速度约 30-40 tokens/s

Qwen3-14B Q4_K_M（~9 GB） ✅ 可以运行

模型 + KV Cache 约 11-13 GB
系统可用内存还剩约 10 GB
推理速度约 18-25 tokens/s
这个是我最推荐的平衡点

Qwen3-30B-A3B Q4_K_M（~3.5 GB） ✅ 轻松运行

MoE 架构，虽然总参数 300 亿，但激活参数只有 30 亿
内存占用比 8B 模型还少
推理速度快，约 25-35 tokens/s
质量介于 8B 和 14B 之间

Qwen3-32B Q4_K_M（~20 GB） ⚠️ 勉强能跑

模型加载后系统几乎没剩多少内存
上下文长度受限，超过 2K 就可能开始 swap
推理速度约 8-12 tokens/s
不推荐日常使用，太卡了

Gemma 3 12B Q4_K_M（~8 GB） ✅ 可以运行

和 Qwen3-14B 类似的内存占用
推理速度约 20-28 tokens/s

Gemma 3 27B Q4_K_M（~17 GB） ⚠️ 勉强能跑

加载后系统内存接近满载
推理速度约 8-15 tokens/s
中文能力明显弱于 Qwen3-14B
性价比不高

一张图说清楚

内存占用（Q4 量化）      32G Mac 可行性
                                    
Qwen3-8B   ████░░░░░░░  ✅ 轻松
Qwen3-14B  ███████░░░░  ✅ 舒适
Qwen3-30B-A3B ███░░░░░░ ✅ 轻松（MoE）
Qwen3-32B  ██████████████░░  ⚠️ 勉强
Gemma3-12B ██████░░░░░  ✅ 舒适
Gemma3-27B █████████████░░░  ⚠️ 勉强

推理速度和中文能力对比

我用 Ollama 在同一台 Mac Studio（M2 Max, 32GB）上跑了几个测试。

推理速度

模型	量化	速度（tokens/s）	首 token 延迟
Qwen3-8B	Q4_K_M	35-42	0.3s
Qwen3-14B	Q4_K_M	18-25	0.5s
Qwen3-30B-A3B	Q4_K_M	28-35	0.4s
Qwen3-32B	Q4_K_M	8-12	1.2s
Gemma 3 12B	Q4_K_M	22-28	0.4s
Gemma 3 27B	Q4_K_M	8-15	1.0s

速度感受上，20 tokens/s 是个分水岭。低于这个速度，等回复就有明显的"卡"的感觉。所以 Qwen3-14B 和 Gemma 3 12B 是体验的下限，再大的模型在 32G Mac 上就不太舒服了。

中文能力

这才是关键。中文场景下 Qwen3 几乎碾压 Gemma 3。

我用同样的 prompt 测试了两个模型：

测试 1：中文写作 Prompt："用 200 字解释什么是量子纠缠，要求通俗易懂。"

Qwen3-14B 的输出自然流畅，用"手套比喻"来讲，类比恰当，读起来舒服。Gemma 3 12B 的中文输出能看懂，但明显带有"翻译腔"，句式偏西化，偶尔出现语序不自然的情况。

测试 2：代码生成 Prompt："写一个 Python 函数，统计一个文本文件中出现频率最高的 10 个词。"

两个模型的代码质量差不多。Gemma 3 在英文编程场景可能稍好，但差距不大。

测试 3：中文推理 Prompt："张三比李四大 3 岁，5 年后张三的年龄是李四的 1.5 倍。张三现在多大？"

Qwen3-14B 一次答对（张三 14 岁）。Gemma 3 12B 第一次算错了，给了个 18 岁的答案。

结论：中文场景毫不犹豫选 Qwen3。

能不能用在 Agent 场景？

这才是我最关心的。Hermes Agent 和 Claude Code 都需要模型具备两个关键能力：

Tool Use / Function Calling：能正确调用工具
长上下文理解：能处理包含大量工具返回结果的上下文

Tool Use 能力

Qwen3 对 tool use 的支持

Qwen3 原生支持 function calling，格式和 OpenAI 的 tool use 兼容。在 Ollama 中可以直接使用：

# Ollama + Qwen3 tool use 示例
import ollama

response = ollama.chat(
    model='qwen3:14b',
    messages=[{'role': 'user', 'content': '北京今天天气怎么样？'}],
    tools=[{
        'type': 'function',
        'function': {
            'name': 'get_weather',
            'description': '获取指定城市的天气',
            'parameters': {
                'type': 'object',
                'properties': {
                    'city': {'type': 'string', 'description': '城市名'}
                },
                'required': ['city']
            }
        }
    }]
)

if response['message'].get('tool_calls'):
    for tool in response['message']['tool_calls']:
        print(f"调用: {tool['function']['name']}")
        print(f"参数: {tool['function']['arguments']}")
    # 输出：
    # 调用: get_weather
    # 参数: {'city': '北京'}

Qwen3-14B 的 tool call 准确率约 85-90%，日常场景够用。复杂的多步 tool call 偶尔会出错。

Gemma 3 对 tool use 的支持

Gemma 3 也支持 function calling，但需要特定的 prompt 格式。在 Ollama 中的兼容性不如 Qwen3 好，偶尔会出现格式不规范的情况。

在 Hermes Agent 中使用

Hermes Agent 支持通过 Ollama 接入本地模型。配置方式：

# ~/.hermes/config.yaml
providers:
  ollama:
    type: ollama
    base_url: http://localhost:11434
    models:
      - qwen3:14b
      - qwen3:8b

实际体验：Qwen3-14B 作为 Hermes 的本地 fallback 模型可以工作，但和 Claude Sonnet 比有明显差距。复杂的多步 Agent 任务（比如写文章+发布+调试）还是得靠云端 API。本地模型适合做简单任务：文本摘要、简单问答、格式转换。

在 Claude Code 中使用

Claude Code 目前不支持接入本地模型。它必须通过 Anthropic API 使用 Claude 系列模型。这个没什么好说的，Anthropic 的产品，只支持自家的模型。

如果你想在本地用类似 Claude Code 的体验，可以考虑 OpenHands 或 Aider，它们支持 Ollama 后端。

实际部署建议

折腾了一圈，我的最终选择：

日常中文使用：Qwen3-14B Q4_K_M

理由很简单：32G Mac 上最舒服的平衡点。速度快、中文好、支持 tool use。用 Ollama 一行命令就能跑起来：

# 安装 Ollama（如果还没装）
brew install ollama

# 拉取模型
ollama pull qwen3:14b

# 测试一下
ollama run qwen3:14b "你好，介绍一下你自己"

轻量级场景：Qwen3-30B-A3B

这个 MoE 模型是个宝藏。内存占用比 8B 还小，质量却接近 14B。如果你的 Mac 内存更小（16G），这个是首选。

英文编程场景：Gemma 3 12B

如果你主要用英文写代码、不需要中文，Gemma 3 12B 是个不错的选择。但说实话，这个场景下 Qwen3-14B 也不差，差距没那么大。

不建议的配置：

❌ Qwen3-32B 或 Gemma 3 27B 在 32G Mac 上 —— 能跑但太卡
❌ 用本地模型跑复杂 Agent 任务 —— 质量不够，还是得靠云端 API
❌ Gemma 3 做中文场景 —— 翻译腔太重

硬件升级建议：

如果你认真想做本地 Agent，64GB Mac 是更合理的选择。64GB 下 Qwen3-32B Q4_K_M 可以流畅运行，推理速度约 15-20 tokens/s，勉强能当 Agent 后端用。

但说句大实话：2026 年了，云 API 的价格已经很低了。本地部署的最大价值不是省钱，是数据隐私和离线可用。如果你没有这两个硬需求，Claude Sonnet 和 GPT-4o 的 API 便宜到本地部署省的电费都不一定够覆盖。

作者: itech001
来源: 公众号：AI人工智能时代
主页: https://www.theaiera.cn（每日分享最前沿的AI新闻和技术）

本文首发于 AI人工智能时代，转载请注明出处。