返回博客列表

三个便宜模型组队干翻 Fable 5:OpenRouter Fusion 的多模型融合实验

2026-06-16T18:00:00+08:00
AIOpenRouter多模型融合LLMBenchmarkDRACOAPI

三个便宜模型组队干翻 Fable 5:OpenRouter Fusion 的多模型融合实验

一个模型想不通的问题,三个模型一起想。OpenRouter 用"模型陪审团"的思路,把深度研究任务的质量推到了前沿模型之上。

OpenRouter 上周发布了 Fusion Router(openrouter/fusion),一个多模型融合推理工具。核心思路很直接:让一组模型并行回答同一个问题,然后由一个"裁判模型"对比分析各模型的回答——不是简单合并,而是结构化地提取共识、矛盾、覆盖盲区、独特洞察——最终由你的模型基于这份分析写出更好的答案。

OpenRouter 团队在 DRACO 深度研究基准上做了 100 个任务的测试,结果相当有说服力。

本文提纲

  1. DRACO 基准测试结果:Fusion 全面超越单模型
  2. Fusion 的工作原理:Panel + Judge 架构
  3. 四种使用方式:从零代码到完全自定义
  4. 成本与延迟:值得的取舍
  5. 模型自己融合自己也有提升
  6. 防止作弊的工程设计
  7. 适用场景和局限性

DRACO 基准测试结果:Fusion 全面超越单模型

DRACO 是 Perplexity AI 设计的深度研究基准,包含 100 个跨 10 个领域的复杂研究任务(学术、金融、法律、医学、技术等)。每个任务有约 39 个加权评分标准,涵盖事实准确性、广度与深度、呈现质量、引用质量四个维度。负权标准意味着说出错误信息会被扣分——这使得靠"废话多"来刷分变得不可能。

每个回答由裁判模型独立评分三次,报告平均归一化分数(0-100)。

类型 模型 得分
Fusion Fable 5 + GPT-5.5(Opus 4.8 综合) 69.0%
Fusion Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro(Opus 4.8 综合) 68.3%
Fusion Opus 4.8 + GPT-5.5(Opus 4.8 综合) 67.6%
Fusion Opus 4.8 + Opus 4.8(Opus 4.8 综合) 65.5%
Solo Claude Fable 5 65.3%
Fusion Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 64.7%
Solo DeepSeek V4 Pro 60.3%
Solo GPT-5.5 60.0%
Solo Claude Opus 4.8 58.8%
Solo Kimi K2.6 53.7%
Solo Gemini 3.1 Pro 45.4%
Solo Gemini 3 Flash 43.1%

三个关键发现:

  1. Panel 始终优于单模型。Fable 5 + GPT-5.5 融合得分 69.0%,比 Fable 5 单独跑的 65.3% 高 3.7 个百分点。
  2. 前沿面板可以实现超越前沿的性能。这在单模型范式下是不可能的——你不能让一个模型表现得比它自己能做的更好。
  3. 便宜模型组队可以逼近前沿。Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 这三个模型各自的得分都不算顶尖(43-60%),但组队后达到 64.7%——以约 50% 的成本逼近 Fable 5 的水平。

Fusion 的工作原理:Panel + Judge 架构

flowchart LR
    A["你的请求"] --> B["你的模型"]
    B -->|"调用 openrouter:fusion"| C["Panel 面板
最多 8 个模型
+ web_search + web_fetch"] C --> D["Judge 裁判
+ web_search + web_fetch
输出结构化 JSON"] D -->|"分析报告"| B B --> E["最终答案"]

工作流程:

  1. 你发送请求,模型判断任务是否需要多模型讨论。如果需要,调用 openrouter:fusion 工具。
  2. Panel(面板)——一组模型并行回答你的 prompt,每个模型都启用了 web_searchweb_fetch
  3. Judge(裁判) 接收所有面板回答,不是简单合并,而是产出结构化 JSON 分析:
    • 共识:多数模型同意的观点(高置信度)
    • 矛盾:模型间分歧之处
    • 覆盖盲区:只有部分模型覆盖的内容
    • 独特洞察:个别模型的独到见解
    • 盲点:所有模型都没涉及的领域
  4. 你的模型基于分析报告写出最终答案。

一个重要的设计选择:裁判分析而非合并。这意味着最终答案不是各模型答案的拼贴,而是经过结构化思考后的综合输出。

四种使用方式

Fusion 提供四种接入方式,复杂度递增:

1. 聊天室(零代码)

打开 openrouter.ai/fusion,选预设或自建面板。

2. Model Slug(最简 API 调用)

{
  "model": "openrouter/fusion",
  "messages": [
    { "role": "user", "content": "碳税的最强论据和反对意见分别是什么?" }
  ]
}

一行 "model": "openrouter/fusion" 搞定,自动注入 Fusion 工具。

3. Server Tool(完全自定义)

{
  "model": "~anthropic/claude-opus-latest",
  "messages": [
    { "role": "user", "content": "..." }
  ],
  "tools": [
    {
      "type": "openrouter:fusion",
      "parameters": {
        "analysis_models": [
          "~anthropic/claude-opus-latest",
          "~openai/gpt-latest",
          "~google/gemini-pro-latest"
        ],
        "model": "~openai/gpt-latest"
      }
    }
  ]
}

你可以自选外层模型,自定义面板成员和裁判模型,还能把 Fusion 和其他工具组合使用。

4. Plugin(插件模式)

{
  "model": "openrouter/fusion",
  "messages": [{ "role": "user", "content": "..." }],
  "plugins": [{
    "id": "fusion",
    "model": "google/gemini-3-flash-preview",
    "analysis_models": [
      "google/gemini-3-flash-preview",
      "moonshotai/kimi-k2.6",
      "deepseek/deepseek-v4-pro"
    ]
  }]
}

强制每次调用 Fusion:默认模型自行判断是否需要 Fusion。加 tool_choice: "required" 可强制每次请求都触发。

成本与延迟:值得的取舍

Fusion 运行 N 个面板调用 + 1 个裁判调用。默认 3 模型面板时,成本约为单次完成的 4-5 倍,随面板大小线性增长。

延迟方面,正常请求速度和平时一样——只有当模型判断需要 Fusion 时才会触发多步流程,通常比标准调用慢 2-3 倍

这个取舍是合理的:简单问题直接回答不额外花钱,只在需要深度研究的复杂问题上多花几倍成本换一个更好的答案。

省钱策略:用便宜模型组队。Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 的组合成本约为 Fable 5 单模型的一半,但得分只低 0.6 个百分点。

模型自己融合自己也有提升

一个有趣的实验:Opus 4.8 和自己组队(两个 Opus 4.8 面板 + Opus 4.8 裁判),得分 65.5%——比单独 Opus 4.8 的 58.8% 高出 6.7 个百分点

这说明 Fusion 的提升相当一部分来自综合步骤本身,而不仅仅是模型多样性。同一个 prompt 跑两次会产生不同的推理路径、不同的工具调用、不同的来源选择。综合步骤把这些差异整合成更全面的答案。

当然,这还比不上多样化模型面板的效果(67.6-69.0%),但说明即使你只有一个模型的访问权限,Fusion 仍然有价值。

防止作弊的工程设计

OpenRouter 在测试中发现了一个意外:给了面板模型 web 搜索能力后,它们搜索时偶然找到了 DRACO 的评分标准。虽然不是故意作弊,但确实暴露了一个真实的污染风险。

解决方案:通过 excluded_domainsblocked_domains 配置,阻止模型访问基准测试相关页面。OpenRouter 的 server tools 支持全局排除列表,一行配置搞定,无需按模型单独处理。

另外,Fusion 有递归保护机制:内部 Fusion 调用携带 x-openrouter-fusion-depth 头,面板和裁判模型无法递归调用 openrouter:fusion,确保讨论限制在单层。

适用场景和局限性

最适合的场景

  • 深度研究问题(多来源综合分析)
  • 专家级评审(需要多角度审视)
  • "比较和对比"类 prompt
  • 犯错的代价高于多跑几次 API 调用的场景
  • 架构决策、最佳实践调研

不太适合的场景

  • 简单问答(模型会直接回答,不触发 Fusion)
  • 编码任务(Fusion 不是编码模型的替代品,而是辅助工具)
  • 长周期任务(Fable 5 在这方面更强)
  • 对延迟敏感的场景

Fusion vs Fable 5:OpenRouter 明确说 Fusion 不是 Fable 5 的替代品。基准测试只覆盖了 DRACO 深度研究任务,Fable 5 在长周期任务上有自己的优势。但 Fusion 的"模型陪审团"思路,为那些无法访问 Fable 5 或想要更低成本的团队提供了一条可行的路径。

你有在用多模型融合的方案吗?评论区聊聊你的经验。觉得有用就点个赞,让更多人看到这个工具。


参考文档与链接

OpenRouter 官方

相关基准和研究

相关技术讨论


作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/ 每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。

觉得文章不错?分享给更多人!