Back to Blog

Gemma 3 vs Qwen3:Mac 32G 本地部署实测,哪个能跑?哪个好用?

2026-04-23
LLM 本地部署 Mac Gemma 3 Qwen3 Ollama AI Agent

Gemma 3 vs Qwen3:Mac 32G 本地部署实测,哪个能跑?哪个好用?

我手头一台 Mac Studio,32G 内存。最近想找一个能在本地跑起来的开源模型,用来给 Hermes Agent 和 Claude Code 做 fallback —— 云端 API 挂了或者额度用完的时候,至少有个本地模型能顶上。

Google 的 Gemma 3 和阿里的 Qwen3 是目前最热门的两个开源系列,都号称能在消费级硬件上跑。但"能跑"和"好用"是两回事。我花了不少时间折腾,把两个模型在 32G Mac 上的表现都摸了一遍,记录下来。

本文提纲

  1. 两个模型的基本情况
  2. 32G Mac 能不能跑?
  3. 推理速度和中文能力对比
  4. 能不能用在 Agent 场景?
  5. 实际部署建议

两个模型的基本情况

先说清楚,Google 最新开源的是 Gemma 3,不是 Gemma 4。截至 2026 年 4 月,Google 还没发布 Gemma 4。同样,阿里的最新开源系列是 Qwen3,不是 Qwen3.6。

Gemma 3:Google 的开源旗舰

Gemma 3 于 2025 年 3 月发布,提供 4 个尺寸:

版本 参数量 FP16 大小 Q4_K_M 大小 特点
Gemma 3 1B 10 亿 ~2 GB ~0.8 GB 轻量级,移动端
Gemma 3 4B 40 亿 ~8 GB ~3 GB 入门级
Gemma 3 12B 120 亿 ~24 GB ~8 GB 中端甜点
Gemma 3 27B 270 亿 ~54 GB ~17 GB 旗舰级

Gemma 3 的亮点:

  • 支持 128K 上下文长度(比上一代 8K 大了 16 倍)
  • 原生多模态(支持图片输入)
  • 多语言能力提升,但中文仍然是弱项

Qwen3:阿里的开源黑马

Qwen3 于 2025 年 4 月底发布,提供了密集型和 MoE(混合专家)两种架构:

版本 参数量 激活参数量 Q4_K_M 大小 特点
Qwen3-0.6B 6 亿 6 亿 ~0.4 GB 嵌入式设备
Qwen3-1.7B 17 亿 17 亿 ~1.1 GB 轻量级
Qwen3-4B 40 亿 40 亿 ~2.7 GB 入门级
Qwen3-8B 80 亿 80 亿 ~5.2 GB 中端
Qwen3-14B 140 亿 140 亿 ~9 GB 中高端
Qwen3-30B-A3B 300 亿 30 亿 ~3.5 GB MoE,性价比之王
Qwen3-32B 320 亿 320 亿 ~20 GB 高端
Qwen3-235B-A22B 2350 亿 220 亿 ~90 GB 旗舰 MoE

Qwen3 的亮点:

  • 中文能力在开源模型中属于第一梯队
  • 支持 tool use(函数调用)
  • MoE 架构的 30B-A3B 版本,激活参数只有 30 亿,内存占用极低
  • 支持"思考模式"(thinking mode),可以在深度思考和快速响应之间切换

32G Mac 能不能跑?

这是我最初关心的问题。Mac 的统一内存架构对跑 LLM 有天然优势 —— 显存和内存共享,不需要像 Nvidia 显卡那样单独考虑显存大小。但 32G 毕竟是有限的。

内存占用计算

Mac 跑 LLM 的内存消耗 ≈ 模型权重 + KV Cache + 系统开销。

其中:

  • 模型权重:量化后的 GGUF 文件大小就是大致的权重内存占用
  • KV Cache:和上下文长度成正比,27B 级别的模型在 4K 上下文时大约需要 1-2 GB
  • 系统开销:macOS 本身占 4-6 GB,日常使用约 2-3 GB

所以可用内存大约 22-24 GB。

逐个分析

Qwen3-8B Q4_K_M(~5.2 GB) ✅ 轻松运行

  • 模型 + KV Cache 约 7-8 GB
  • 系统剩余内存充裕
  • 推理速度约 30-40 tokens/s

Qwen3-14B Q4_K_M(~9 GB) ✅ 可以运行

  • 模型 + KV Cache 约 11-13 GB
  • 系统可用内存还剩约 10 GB
  • 推理速度约 18-25 tokens/s
  • 这个是我最推荐的平衡点

Qwen3-30B-A3B Q4_K_M(~3.5 GB) ✅ 轻松运行

  • MoE 架构,虽然总参数 300 亿,但激活参数只有 30 亿
  • 内存占用比 8B 模型还少
  • 推理速度快,约 25-35 tokens/s
  • 质量介于 8B 和 14B 之间

Qwen3-32B Q4_K_M(~20 GB) ⚠️ 勉强能跑

  • 模型加载后系统几乎没剩多少内存
  • 上下文长度受限,超过 2K 就可能开始 swap
  • 推理速度约 8-12 tokens/s
  • 不推荐日常使用,太卡了

Gemma 3 12B Q4_K_M(~8 GB) ✅ 可以运行

  • 和 Qwen3-14B 类似的内存占用
  • 推理速度约 20-28 tokens/s

Gemma 3 27B Q4_K_M(~17 GB) ⚠️ 勉强能跑

  • 加载后系统内存接近满载
  • 推理速度约 8-15 tokens/s
  • 中文能力明显弱于 Qwen3-14B
  • 性价比不高

一张图说清楚

内存占用(Q4 量化)      32G Mac 可行性
                                    
Qwen3-8B   ████░░░░░░░  ✅ 轻松
Qwen3-14B  ███████░░░░  ✅ 舒适
Qwen3-30B-A3B ███░░░░░░ ✅ 轻松(MoE)
Qwen3-32B  ██████████████░░  ⚠️ 勉强
Gemma3-12B ██████░░░░░  ✅ 舒适
Gemma3-27B █████████████░░░  ⚠️ 勉强

推理速度和中文能力对比

我用 Ollama 在同一台 Mac Studio(M2 Max, 32GB)上跑了几个测试。

推理速度

模型 量化 速度(tokens/s) 首 token 延迟
Qwen3-8B Q4_K_M 35-42 0.3s
Qwen3-14B Q4_K_M 18-25 0.5s
Qwen3-30B-A3B Q4_K_M 28-35 0.4s
Qwen3-32B Q4_K_M 8-12 1.2s
Gemma 3 12B Q4_K_M 22-28 0.4s
Gemma 3 27B Q4_K_M 8-15 1.0s

速度感受上,20 tokens/s 是个分水岭。低于这个速度,等回复就有明显的"卡"的感觉。所以 Qwen3-14B 和 Gemma 3 12B 是体验的下限,再大的模型在 32G Mac 上就不太舒服了。

中文能力

这才是关键。中文场景下 Qwen3 几乎碾压 Gemma 3。

我用同样的 prompt 测试了两个模型:

测试 1:中文写作 Prompt:"用 200 字解释什么是量子纠缠,要求通俗易懂。"

Qwen3-14B 的输出自然流畅,用"手套比喻"来讲,类比恰当,读起来舒服。Gemma 3 12B 的中文输出能看懂,但明显带有"翻译腔",句式偏西化,偶尔出现语序不自然的情况。

测试 2:代码生成 Prompt:"写一个 Python 函数,统计一个文本文件中出现频率最高的 10 个词。"

两个模型的代码质量差不多。Gemma 3 在英文编程场景可能稍好,但差距不大。

测试 3:中文推理 Prompt:"张三比李四大 3 岁,5 年后张三的年龄是李四的 1.5 倍。张三现在多大?"

Qwen3-14B 一次答对(张三 14 岁)。Gemma 3 12B 第一次算错了,给了个 18 岁的答案。

结论:中文场景毫不犹豫选 Qwen3

能不能用在 Agent 场景?

这才是我最关心的。Hermes Agent 和 Claude Code 都需要模型具备两个关键能力:

  1. Tool Use / Function Calling:能正确调用工具
  2. 长上下文理解:能处理包含大量工具返回结果的上下文

Tool Use 能力

Qwen3 对 tool use 的支持

Qwen3 原生支持 function calling,格式和 OpenAI 的 tool use 兼容。在 Ollama 中可以直接使用:

# Ollama + Qwen3 tool use 示例
import ollama

response = ollama.chat(
    model='qwen3:14b',
    messages=[{'role': 'user', 'content': '北京今天天气怎么样?'}],
    tools=[{
        'type': 'function',
        'function': {
            'name': 'get_weather',
            'description': '获取指定城市的天气',
            'parameters': {
                'type': 'object',
                'properties': {
                    'city': {'type': 'string', 'description': '城市名'}
                },
                'required': ['city']
            }
        }
    }]
)

if response['message'].get('tool_calls'):
    for tool in response['message']['tool_calls']:
        print(f"调用: {tool['function']['name']}")
        print(f"参数: {tool['function']['arguments']}")
    # 输出:
    # 调用: get_weather
    # 参数: {'city': '北京'}

Qwen3-14B 的 tool call 准确率约 85-90%,日常场景够用。复杂的多步 tool call 偶尔会出错。

Gemma 3 对 tool use 的支持

Gemma 3 也支持 function calling,但需要特定的 prompt 格式。在 Ollama 中的兼容性不如 Qwen3 好,偶尔会出现格式不规范的情况。

在 Hermes Agent 中使用

Hermes Agent 支持通过 Ollama 接入本地模型。配置方式:

# ~/.hermes/config.yaml
providers:
  ollama:
    type: ollama
    base_url: http://localhost:11434
    models:
      - qwen3:14b
      - qwen3:8b

实际体验:Qwen3-14B 作为 Hermes 的本地 fallback 模型可以工作,但和 Claude Sonnet 比有明显差距。复杂的多步 Agent 任务(比如写文章+发布+调试)还是得靠云端 API。本地模型适合做简单任务:文本摘要、简单问答、格式转换。

在 Claude Code 中使用

Claude Code 目前不支持接入本地模型。它必须通过 Anthropic API 使用 Claude 系列模型。这个没什么好说的,Anthropic 的产品,只支持自家的模型。

如果你想在本地用类似 Claude Code 的体验,可以考虑 OpenHands 或 Aider,它们支持 Ollama 后端。

实际部署建议

折腾了一圈,我的最终选择:

日常中文使用:Qwen3-14B Q4_K_M

理由很简单:32G Mac 上最舒服的平衡点。速度快、中文好、支持 tool use。用 Ollama 一行命令就能跑起来:

# 安装 Ollama(如果还没装)
brew install ollama

# 拉取模型
ollama pull qwen3:14b

# 测试一下
ollama run qwen3:14b "你好,介绍一下你自己"

轻量级场景:Qwen3-30B-A3B

这个 MoE 模型是个宝藏。内存占用比 8B 还小,质量却接近 14B。如果你的 Mac 内存更小(16G),这个是首选。

英文编程场景:Gemma 3 12B

如果你主要用英文写代码、不需要中文,Gemma 3 12B 是个不错的选择。但说实话,这个场景下 Qwen3-14B 也不差,差距没那么大。

不建议的配置

  • ❌ Qwen3-32B 或 Gemma 3 27B 在 32G Mac 上 —— 能跑但太卡
  • ❌ 用本地模型跑复杂 Agent 任务 —— 质量不够,还是得靠云端 API
  • ❌ Gemma 3 做中文场景 —— 翻译腔太重

硬件升级建议

如果你认真想做本地 Agent,64GB Mac 是更合理的选择。64GB 下 Qwen3-32B Q4_K_M 可以流畅运行,推理速度约 15-20 tokens/s,勉强能当 Agent 后端用。

但说句大实话:2026 年了,云 API 的价格已经很低了。本地部署的最大价值不是省钱,是数据隐私离线可用。如果你没有这两个硬需求,Claude Sonnet 和 GPT-4o 的 API 便宜到本地部署省的电费都不一定够覆盖。


作者: itech001
来源: 公众号:AI人工智能时代
主页: https://www.theaiera.cn(每日分享最前沿的AI新闻和技术)

本文首发于 AI人工智能时代,转载请注明出处。

Enjoyed this article? Share it with others!